[略有技术含量]彪汗的百度

今天要给公司业务员做PDA的培训，我们公司上PDA系统几年来，其实用得并不顺，也从一个方面证明了，最前卫的技术未必最实用。几年前的老式PDA真的很不好用，害我瞎忙了一天。

加上斗牛士（donews）今天貌似被人斗了。更加郁闷。

但最郁闷的还在后头。

我在《理想的BSP》一文中曾经说过用自主建站的优点之一是：可以通过robots.txt来拒绝搜索引擎的访问。但是今天我才发现，这只是一种防君子不防小人的措施。因为我在一个网站上试用了这个东东，但是今天却发现用百度居然可以搜索到这个网站。

记得我明明是配置成拒绝所有搜索引擎收录所有页面的。但是百度居然可以搜到！！！它丫的居然可以！！！

为了慎重起见，我又用GOOGLE照样搜了几遍，包括用“site:”参数照样是一个页面也没有，干净清白。

百度这样的流氓行为与破门而入的盗贼并无不同。

难怪在很多介绍robots.txt应用的文章里，都是以GOOGLE为例，并且特别说明并非所有的搜索引擎都会遵守。现在我算是见识了。

–11.28于鸟眼观圈

BTW：上文作于昨天，8过今天donews貌似又被攻击了。想起某天跟人聊天时说起.text不够稳定的问题，结果最后的结论是：不是.text不稳定，是.net不稳定，然后引出IIS的不稳定，再导出Windows不稳定……嗯，纯属玩笑。

不过我还是决定学习一下FreeBSD，桌面上用用Windows就算了，做服务器还是要找安全可靠的选择。

12.1 — 补充一下，我写robots.txt时是按GOOGLE的文档来做的，后来有匿名人士给出百度的robots.txt文档说明，显然百度还是表过态是要支持这一规范的，我看了一下，与GOOGLE的文档没有什么区别。可见我没有冤枉百度。

35 Replies to “[略有技术含量]彪汗的百度”

AirHunter says:

November 29, 2005 at 6:10 pm

当初偶就说.text不爽～～

Reply
悦然 says:

November 29, 2005 at 6:46 pm

大堆的名词看的晕掉PDA是什么东西还不知道呢…… ^_^|||

Reply
稻草心 says:

November 30, 2005 at 12:36 am

忍不住问句题外话：CC的叶子到底怎么了？？

Reply
TR@SOE says:

November 30, 2005 at 8:38 am

真是彪汗啊。。。可以造出一个新名词：汗彪ing

Reply
GaoLun says:

November 30, 2005 at 8:52 am

这种情况可以打电话去baidu骂的,baidu可以搜索到我们公司论坛里的东西,我们公司的某某经理就打电话去骂了,不过经我测试,骂了之后的结果还是一样的,哈哈哈,

Reply
猛禽 says:

November 30, 2005 at 9:18 am

心心的问题现在属于敏感话题，只能私下讨论。^O^

Reply
稻草心 says:

November 30, 2005 at 11:11 am

我也知道可能比较敏感，只好等着私下里探听隐秘了。：）不过我觉得肯定很多人都很关心的。

Reply
robintj says:

November 30, 2005 at 11:14 am

彪汗？应该是“彪悍”吧。

Reply
demo@virushuo says:

November 30, 2005 at 12:15 pm

看我如何识破这个骗子一个哥们看到了 <a href=”http://es.pconline.com.cn/sell.jsp?id=380753″>http://es.pconline.com.cn/sell.jsp?id=380753</a>的二手计算机，觉得配置，价钱不错，想买下来。我还觉得pconline骗子似乎少一点，也没考虑太多。后来突然觉得不放心，决定查一番。

Reply
virushuo says:

November 30, 2005 at 12:19 pm

看我如何识破这个骗子看我如何识破这个骗子的一个哥们看到了 http://es.pconline.com.cn/sell.jsp?id=380753的二手计算机，觉得配置，价钱不错，想买下来。我还觉得pconline骗子似乎少一点，也没考虑太多。后来突然觉得不放心，决定查一番。先点开了用户信息，名字叫做“张力”，邮件是[email protected]，我们就从这个邮件下手。

Reply
猛禽 says:

November 30, 2005 at 2:01 pm

查出什么来了？

Reply
duduwolf says:

November 30, 2005 at 2:02 pm

robot.txt不属于一种法律规范标准，所以baidu可以不听任它的“摆布”，这好比IE里面有很多不属于W3C的标准规范。对于此种情况，我一般都强制加上身份验证，我就不信丫baidu能访问到！

Reply
猛禽 says:

November 30, 2005 at 2:02 pm

是彪汗，“汗”在这里别有意义。^O^

Reply
猛禽 says:

November 30, 2005 at 3:11 pm

robot.txt的确不属于法律规范，没有强制力，但属于业内普遍接受的约定，同样是搜索引擎，百度这种做法就恶心得多。我今天就给那个站加上身份验证，不信治不了丫的百度。

Reply
怪事 says:

November 30, 2005 at 6:50 pm

百度不遵守ROBOTS协议？？？怪事……楼主能告诉是哪个网站么？

Reply
猛禽 says:

November 30, 2005 at 9:33 pm

就是不想让人知道，才用ROBOT的，当然不能告诉楼上了。^O^

Reply
你robots协议设对了没有？ says:

December 1, 2005 at 1:33 am

robots协议没设对，不要自作聪明，乱冤枉人呦。参考：http://www.baidu.com/search/robots.html

Reply
猛禽 says:

December 1, 2005 at 9:23 am

网站根目录下的robots.txt文件内容：User-agent: *Disallow: /

Reply
tinyfool says:

December 2, 2005 at 2:14 am

貌似Google然而其实不同的Baidu

Reply
收录了你几个页面？ says:

December 2, 2005 at 3:09 am

如果你如你所说，设置了robots协议，而百度收录了一堆你的站点内页面，你大可跑百度去啐李彦宏一顿；但是，如果你仅被收录了一个首页，而且是没有摘要的，那么，我可以告诉你，这是正常的。对待robots，无论是google，还是百度，都是默认收录首页url，无内容。至于google没收录你，那也许是因为，它觉得你的网站太垃圾了，不好意思收录你而已。

Reply
猛禽 says:

December 2, 2005 at 9:42 am

楼上莫非是百度的人？不妨告诉你，GOOGLE的确收了录了首页的URL，而百度也的确收录了一堆的页面，并且都有摘要和快照。客观事实证明：这是不正常的。

Reply
topku says:

December 2, 2005 at 12:41 pm

如果合适把你的站点发信我看看；THX

Reply
nose says:

December 2, 2005 at 11:25 pm

一会儿说google一个也没收录，一会儿被揭穿了又说收录了首页。大哥，厚道一点嘛

Reply
猛禽 says:

December 2, 2005 at 11:33 pm

楼上的是不是看不懂中文啊？我说了GOOGLE只收录了一个首页的URL，什么摘要和页面内容都没有。

Reply
yoki says:

December 2, 2005 at 11:35 pm

我也曾遇到过类似情况，我相信这不是偶然现象http://www.theyoki.net/blog/article.asp?id=158

Reply
猛禽 says:

December 2, 2005 at 11:37 pm

TO:topku回家来找过，才发现年会上忘记跟你要名片了。-_-|||你的email是什么？发个MAIL给我吧。

Reply
nose says:

December 3, 2005 at 6:37 pm

to 猛禽，你这么说也只是在回答别人问题的时候才说的。为什么不在文章里这么写呢？这不是让人觉得不厚道。你的robots协议是1，2个月内新设置的吧？如果在百度那些结果页面生成之前设置的，那baidu就真不厚道了。

Reply
猛禽 says:

December 4, 2005 at 7:42 pm

我在文章里已经说得很清楚了：GOOGLE没有收录一个页面，而百度收录了——至于URL，只有一个URL，没有摘要，没有页面内容，并且是以这个URL中的域名部分为关键字才能找到，这个当然不能算。我这个网站开通还不到一个月，而我的robots.txt是在开通同时就放上去的。是我不厚道还是百度不厚道，不是很明白的事么？

Reply
ֻ˵ says:

December 5, 2005 at 9:19 am

只说给你听（12月5日）

Reply
游客 says:

December 16, 2005 at 2:10 pm

有一个事实不知道你注意到没有，百度收录的页面全都是11月17日的，而你的robots.txt就是11月17日放的。贵站的robots.txt是11月17日更新的。从11月17日以后，baiduspider再也没有抓取站点上的页面。这也算是比较正常的遵守了robots协议。至于为什么目前还能搜索到内部的页面，应该是因为更新的问题。可能百度的索引库好长时间没有更新了:)。一般的搜索引擎对首页的更新比较快，所以你的首页在百度已经没有内容了。

Reply
猛禽 says:

December 16, 2005 at 2:59 pm

楼上看来是百度的工作人员了？但是这也太巧合了吧。这个域名是11月9日才申请的，网站空间是15日才开通的。我11月17日刚把所有文件（包括robots.txt）上传上去，就被百度收录了3720个页面（网站总文件数也不超过1000）？还是希望你们能尽快把已经收录的页面删除，谢谢。

Reply
null says:

January 27, 2006 at 11:54 am

回猛禽:robots协议是针对spider的,您设置robots.txt后,并不会马上在搜索引擎的索引结果中生效.spider在抓取一个网站之前会分析robots.txt文件,如果已经开始抓取,那么,新设置的robots会有一定的滞后效应,可能会在下一轮抓取前生效,网页索引内容的更新也会间隔一段时间.

Reply
猛禽 says:

January 27, 2006 at 12:21 pm

这么说我应试在网站开通伊始就把robots.txt放上去，然后过一段时间再上传其它内容？

Reply
null says:

January 28, 2006 at 6:47 am

呵呵,只要在spider知道有你这个网站之前存在robots.txt肯定没问题.各种搜索引擎在实现以及抓取策略上不一样的啦.春节快乐.

Reply
Zola says:

April 15, 2006 at 9:09 pm

很多搜索引擎都没有遵守robots.txt抓取协议，模拟自己是客户端IE浏览器，这是非常不道德的行为。看车东的分析:http://www.chedong.com/blog/archives/000655.html

Reply

35 Replies to “[略有技术含量]彪汗的百度”

Leave a Reply Cancel reply