今天要给公司业务员做PDA的培训,我们公司上PDA系统几年来,其实用得并不顺,也从一个方面证明了,最前卫的技术未必最实用。几年前的老式PDA真的很不好用,害我瞎忙了一天。
加上斗牛士(donews)今天貌似被人斗了。更加郁闷。
但最郁闷的还在后头。
我在《理想的BSP》一文中曾经说过用自主建站的优点之一是:可以通过robots.txt来拒绝搜索引擎的访问。但是今天我才发现,这只是一种防君子不防小人的措施。因为我在一个网站上试用了这个东东,但是今天却发现用百度居然可以搜索到这个网站。
记得我明明是配置成拒绝所有搜索引擎收录所有页面的。但是百度居然可以搜到!!!它丫的居然可以!!!
为了慎重起见,我又用GOOGLE照样搜了几遍,包括用“site:”参数照样是一个页面也没有,干净清白。
百度这样的流氓行为与破门而入的盗贼并无不同。
难怪在很多介绍robots.txt应用的文章里,都是以GOOGLE为例,并且特别说明并非所有的搜索引擎都会遵守。现在我算是见识了。
–11.28于鸟眼观圈
BTW:上文作于昨天,8过今天donews貌似又被攻击了。想起某天跟人聊天时说起.text不够稳定的问题,结果最后的结论是:不是.text不稳定,是.net不稳定,然后引出IIS的不稳定,再导出Windows不稳定……嗯,纯属玩笑。
不过我还是决定学习一下FreeBSD,桌面上用用Windows就算了,做服务器还是要找安全可靠的选择。
12.1 — 补充一下,我写robots.txt时是按GOOGLE的文档来做的,后来有匿名人士给出百度的robots.txt文档说明,显然百度还是表过态是要支持这一规范的,我看了一下,与GOOGLE的文档没有什么区别。可见我没有冤枉百度。
当初偶就说.text不爽~~
大堆的名词看的晕掉PDA是什么东西还不知道呢…… ^_^|||
忍不住问句题外话:CC的叶子到底怎么了??
真是彪汗啊。。。可以造出一个新名词:汗彪ing
这种情况可以打电话去baidu骂的,baidu可以搜索到我们公司论坛里的东西,我们公司的某某经理就打电话去骂了,不过经我测试,骂了之后的结果还是一样的,哈哈哈,
心心的问题现在属于敏感话题,只能私下讨论。^O^
我也知道可能比较敏感,只好等着私下里探听隐秘了。:)不过我觉得肯定很多人都很关心的。
彪汗? 应该是“彪悍”吧。
看我如何识破这个骗子一个哥们看到了 <a href=”http://es.pconline.com.cn/sell.jsp?id=380753″>http://es.pconline.com.cn/sell.jsp?id=380753</a>的二手计算机,觉得配置,价钱不错,想买下来。我还觉得pconline骗子似乎少一点,也没考虑太多。后来突然觉得不放心,决定查一番。
看我如何识破这个骗子看我如何识破这个骗子的 一个哥们看到了 http://es.pconline.com.cn/sell.jsp?id=380753的二手计算机,觉得配置,价钱不错,想买下来。我还觉得pconline骗子似乎少一点,也没考虑太多。后来突然觉得不放心,决定查一番。 先点开了用户信息,名字叫做“张力”,邮件是[email protected],我们就从这个邮件下手。
查出什么来了?
robot.txt不属于一种法律规范标准,所以baidu可以不听任它的“摆布”,这好比IE里面有很多不属于W3C的标准规范。对于此种情况,我一般都强制加上身份验证,我就不信丫baidu能访问到!
是彪汗,“汗”在这里别有意义。^O^
robot.txt的确不属于法律规范,没有强制力,但属于业内普遍接受的约定,同样是搜索引擎,百度这种做法就恶心得多。我今天就给那个站加上身份验证,不信治不了丫的百度。
百度不遵守ROBOTS协议???怪事……楼主能告诉是哪个网站么?
就是不想让人知道,才用ROBOT的,当然不能告诉楼上了。^O^
robots协议没设对,不要自作聪明,乱冤枉人呦。参考:http://www.baidu.com/search/robots.html
网站根目录下的robots.txt文件内容:User-agent: *Disallow: /
貌似Google然而其实不同的Baidu
如果你如你所说,设置了robots协议,而百度收录了一堆你的站点内页面,你大可跑百度去啐李彦宏一顿;但是,如果你仅被收录了一个首页,而且是没有摘要的,那么,我可以告诉你,这是正常的。对待robots,无论是google,还是百度,都是默认收录首页url,无内容。至于google没收录你,那也许是因为,它觉得你的网站太垃圾了,不好意思收录你而已。
楼上莫非是百度的人?不妨告诉你,GOOGLE的确收了录了首页的URL,而百度也的确收录了一堆的页面,并且都有摘要和快照。客观事实证明:这是不正常的。
如果合适把你的站点发信我看看;THX
一会儿说google一个也没收录,一会儿被揭穿了又说收录了首页。大哥,厚道一点嘛
楼上的是不是看不懂中文啊?我说了GOOGLE只收录了一个首页的URL,什么摘要和页面内容都没有。
我也曾遇到过类似情况,我相信这不是偶然现象http://www.theyoki.net/blog/article.asp?id=158
TO:topku回家来找过,才发现年会上忘记跟你要名片了。-_-|||你的email是什么?发个MAIL给我吧。
to 猛禽,你这么说也只是在回答别人问题的时候才说的。为什么不在文章里这么写呢?这不是让人觉得不厚道。你的robots协议是1,2个月内新设置的吧?如果在百度那些结果页面生成之前设置的,那baidu就真不厚道了。
我在文章里已经说得很清楚了:GOOGLE没有收录一个页面,而百度收录了——至于URL,只有一个URL,没有摘要,没有页面内容,并且是以这个URL中的域名部分为关键字才能找到,这个当然不能算。我这个网站开通还不到一个月,而我的robots.txt是在开通同时就放上去的。是我不厚道还是百度不厚道,不是很明白的事么?
只说给你听(12月5日)
有一个事实不知道你注意到没有,百度收录的页面全都是11月17日的,而你的robots.txt就是11月17日放的。贵站的robots.txt是11月17日更新的。从11月17日以后,baiduspider再也没有抓取站点上的页面。这也算是比较正常的遵守了robots协议。至于为什么目前还能搜索到内部的页面,应该是因为更新的问题。可能百度的索引库好长时间没有更新了:)。一般的搜索引擎对首页的更新比较快,所以你的首页在百度已经没有内容了。
楼上看来是百度的工作人员了?但是这也太巧合了吧。这个域名是11月9日才申请的,网站空间是15日才开通的。我11月17日刚把所有文件(包括robots.txt)上传上去,就被百度收录了3720个页面(网站总文件数也不超过1000)?还是希望你们能尽快把已经收录的页面删除,谢谢。
回猛禽:robots协议是针对spider的,您设置robots.txt后,并不会马上在搜索引擎的索引结果中生效.spider在抓取一个网站之前会分析robots.txt文件,如果已经开始抓取,那么,新设置的robots会有一定的滞后效应,可能会在下一轮抓取前生效,网页索引内容的更新也会间隔一段时间.
这么说我应试在网站开通伊始就把robots.txt放上去,然后过一段时间再上传其它内容?
呵呵,只要在spider知道有你这个网站之前存在robots.txt肯定没问题.各种搜索引擎在实现以及抓取策略上不一样的啦.春节快乐.
很多搜索引擎都没有遵守robots.txt抓取协议,模拟自己是客户端IE浏览器,这是非常不道德的行为。看车东的分析:http://www.chedong.com/blog/archives/000655.html