[略有技术含量]彪汗的百度

今天要给公司业务员做PDA的培训,我们公司上PDA系统几年来,其实用得并不顺,也从一个方面证明了,最前卫的技术未必最实用。几年前的老式PDA真的很不好用,害我瞎忙了一天。

加上斗牛士(donews)今天貌似被人斗了。更加郁闷。

但最郁闷的还在后头。

我在《理想的BSP》一文中曾经说过用自主建站的优点之一是:可以通过robots.txt来拒绝搜索引擎的访问。但是今天我才发现,这只是一种防君子不防小人的措施。因为我在一个网站上试用了这个东东,但是今天却发现用百度居然可以搜索到这个网站。

记得我明明是配置成拒绝所有搜索引擎收录所有页面的。但是百度居然可以搜到!!!它丫的居然可以!!!

为了慎重起见,我又用GOOGLE照样搜了几遍,包括用“site:”参数照样是一个页面也没有,干净清白。

百度这样的流氓行为与破门而入的盗贼并无不同。

难怪在很多介绍robots.txt应用的文章里,都是以GOOGLE为例,并且特别说明并非所有的搜索引擎都会遵守。现在我算是见识了。

–11.28于鸟眼观圈

BTW:上文作于昨天,8过今天donews貌似又被攻击了。想起某天跟人聊天时说起.text不够稳定的问题,结果最后的结论是:不是.text不稳定,是.net不稳定,然后引出IIS的不稳定,再导出Windows不稳定……嗯,纯属玩笑。

不过我还是决定学习一下FreeBSD,桌面上用用Windows就算了,做服务器还是要找安全可靠的选择。

12.1 — 补充一下,我写robots.txt时是按GOOGLE的文档来做的,后来有匿名人士给出百度的robots.txt文档说明,显然百度还是表过态是要支持这一规范的,我看了一下,与GOOGLE的文档没有什么区别。可见我没有冤枉百度。

35 Replies to “[略有技术含量]彪汗的百度”

  1. 这种情况可以打电话去baidu骂的,baidu可以搜索到我们公司论坛里的东西,我们公司的某某经理就打电话去骂了,不过经我测试,骂了之后的结果还是一样的,哈哈哈,

  2. 我也知道可能比较敏感,只好等着私下里探听隐秘了。:)不过我觉得肯定很多人都很关心的。

  3. robot.txt不属于一种法律规范标准,所以baidu可以不听任它的“摆布”,这好比IE里面有很多不属于W3C的标准规范。对于此种情况,我一般都强制加上身份验证,我就不信丫baidu能访问到!

  4. robot.txt的确不属于法律规范,没有强制力,但属于业内普遍接受的约定,同样是搜索引擎,百度这种做法就恶心得多。我今天就给那个站加上身份验证,不信治不了丫的百度。

  5. 如果你如你所说,设置了robots协议,而百度收录了一堆你的站点内页面,你大可跑百度去啐李彦宏一顿;但是,如果你仅被收录了一个首页,而且是没有摘要的,那么,我可以告诉你,这是正常的。对待robots,无论是google,还是百度,都是默认收录首页url,无内容。至于google没收录你,那也许是因为,它觉得你的网站太垃圾了,不好意思收录你而已。

  6. 楼上莫非是百度的人?不妨告诉你,GOOGLE的确收了录了首页的URL,而百度也的确收录了一堆的页面,并且都有摘要和快照。客观事实证明:这是不正常的。

  7. to 猛禽,你这么说也只是在回答别人问题的时候才说的。为什么不在文章里这么写呢?这不是让人觉得不厚道。你的robots协议是1,2个月内新设置的吧?如果在百度那些结果页面生成之前设置的,那baidu就真不厚道了。

  8. 我在文章里已经说得很清楚了:GOOGLE没有收录一个页面,而百度收录了——至于URL,只有一个URL,没有摘要,没有页面内容,并且是以这个URL中的域名部分为关键字才能找到,这个当然不能算。我这个网站开通还不到一个月,而我的robots.txt是在开通同时就放上去的。是我不厚道还是百度不厚道,不是很明白的事么?

  9. 有一个事实不知道你注意到没有,百度收录的页面全都是11月17日的,而你的robots.txt就是11月17日放的。贵站的robots.txt是11月17日更新的。从11月17日以后,baiduspider再也没有抓取站点上的页面。这也算是比较正常的遵守了robots协议。至于为什么目前还能搜索到内部的页面,应该是因为更新的问题。可能百度的索引库好长时间没有更新了:)。一般的搜索引擎对首页的更新比较快,所以你的首页在百度已经没有内容了。

  10. 楼上看来是百度的工作人员了?但是这也太巧合了吧。这个域名是11月9日才申请的,网站空间是15日才开通的。我11月17日刚把所有文件(包括robots.txt)上传上去,就被百度收录了3720个页面(网站总文件数也不超过1000)?还是希望你们能尽快把已经收录的页面删除,谢谢。

  11. 回猛禽:robots协议是针对spider的,您设置robots.txt后,并不会马上在搜索引擎的索引结果中生效.spider在抓取一个网站之前会分析robots.txt文件,如果已经开始抓取,那么,新设置的robots会有一定的滞后效应,可能会在下一轮抓取前生效,网页索引内容的更新也会间隔一段时间.

  12. 呵呵,只要在spider知道有你这个网站之前存在robots.txt肯定没问题.各种搜索引擎在实现以及抓取策略上不一样的啦.春节快乐.

Leave a Reply

Your email address will not be published. Required fields are marked *