9/08/2007

robots

http://blog.pcxingxing.net.ru/robots.txt
User-agent: *
Disallow:

9/07/2007

回来了

因为现在已经开学了,而且又是住校的。所以本网站很少更新。

9/06/2007

Google爬虫的威力有多大?

  大家都知道现在的搜索引擎都是通过爬虫来收录网页内容的,当然,你也可以主动提交自己 的网站,但接下来,还是会有各种各样的爬虫来光临你的网站。这无疑是一件好事,因为爬虫只想帮你的网站提高流量。Google的爬虫叫做 googlebot,相信如果你的网站统计能统计爬虫的流量,一定会见过不少googlebot。当然,你的站得被google关注才行。Google的 目标是要将全世界的信息都收录起来,可见作为Google的先锋部队,Googlebot一定会不断地加强,或者有一天,它们真的会像Philipp写的科幻短文那样,会上门偷听你所说的话,或者把你家的垃圾桶全搬走调查呢。不过不用怕,就算真有那么一天,也要快则等个十年八年,慢则几十年后

  但是,如果有一天,你发现自己的网站里的所有内容都被googlebot删除掉了,你会有怎样的反应?我并不是说从Google索引里删掉,而真的从你的服务器里!下面就是这样一个离奇的例子。

  在Digg上面找到的这个故事里,Googlebot被怀疑是删除掉整个网站的元凶!Josh Breackman在 一间负责一个大型政府网站的CMS系统开发工作的公间工作。这个CMS开发项目主要是为了让政府员工能创建或维护他们自己的网站上的不断变化的内容。但由 于之前他们已经有一个网站,并且网站上面有丰富的内容,所以客户要求在新的网站正式上线之前,将旧网站的内容重组并上传到新网站里。这是一个需时较长的过 程,在几个月后,他们终于把所有的旧网站上的内容都转移到新的CMS系统里,并且把新网站正式放上线,公开浏览。

  但就在网站正式上线的第六天,他们突然发现新网站上的所有内容都自己消失了!并且所有网页都指向了默认的"请输入内容"编辑页!

   很自然地,Josh被要求对这个事件进行彻查。在调查中,他发现了一个外部的IP曾经进入系统,并且删除了所有系统里的内容!这个IP并不是属于某些海 外的黑客,或者目的是想破坏政府网站的信息,而是属于googlebot.com的!也就是说,这个是一个googlebot爬虫!

   那么Googlebot为什么会这么做呢?它怎么会偷偷地将一个网站的内容全部删掉了呢?难道Google与这个政府网站有过节?都不是。经过多番调 查,Josh找到了原因。原来在转移内容的过程中,有一个用户将内容从一个网页复制然后粘贴到另一个网页上,其中包括了"编辑"链接,而这个链接是可以编 辑内容的。在正常情况下,这个链接是没有问题的,因为外部的用户即使点了这个链接,他还需要输入有效的用户名和密码才能通过身份验证,因此他不可能进行编 辑。但是,这个CMS却有一个致命的漏洞,那就是它的认证系统并没有包括像Googlebot这类爬虫在内!也就是说,Googlebot可以轻松通过它 的认证系统!

  因为Googlebot没有使用cookies,所以它可以轻松地绕过cookies验证。它也不理会JS代码,所以也 不会像普通用户那样点击了"编辑"链接后被自动转向到正常的未登录提示页上。因此,它大摇大摆地顺着网页上的链接把整个网站逛遍了,其中当然包括了标题 为"删除网页"的网页!

  整个事件的起因是这个CMS系统存在致命的漏洞,并且更倒霉的是,它刚好碰上了Google的爬虫。

免责声明

1、本人是文盲,以上内容文字均不认识,也看不懂是什么意思(包括但不限于对所以上之内容的识别、阅读、理解、分析、记忆等);

2、本人过去、现在以及将来都不认识本文中提及当事人,且自古以来与该相对人无利益关系;

3、本人昨天、今天以及明天都没有或者不准备去本文所述地点。本文表述之事与本人无关。

4、本人在此发文(包括但不限于汉字、拼音、拉丁字母、斯拉夫字母、日语假名、阿拉伯字母、单词、句子、图片、影像、录音、以及前述之各种任意组合等等)均为随意敲击键盘所出,用于检验本人电脑键盘录入、屏幕显示的机械、光电性能,并不代表本人局部或全部同意、支持或者反对文中观点。如需要详查请直接与键盘发明者及生产厂商法人代表联系;

5、人生有风险,上网需谨慎。本文不暗示、鼓励、支持或映射读者作出生活方式、工作态度、婚姻交友、股票债券买卖、子女教育的积极或消极判断。未成年人请在监护人陪同下阅读本文。无完全民事行为能力者,请立即关闭网页,并用20%高锰酸钾+75%乙醇对键盘、硬盘、电压插座、显示器、鼠标、cpu进行灌溉消毒;

6、如本人留言违反国家有关法律,请网络管理员及时删除本文,本人保留继续发文的权利;

7、因删贴不及时所产生的任何法律(包括宪法、加法、减法、乘法、除法、剑法、拳法、脚法、指法、民法、刑法、书法、公检法、基本法、劳动法、婚姻法、输入法、没办法、国际法、今日说法、吸星大法及文中涉及或可能涉及以及未涉及之法,各地治安管理条例)纠纷或责任本人概不负责;

8、本人谢绝任何跨省(包括但不限于跨国、跨洲、跨星球、跨星系)追捕行为。确因不抓不足以平民愤,或不抓就领不到薪水养家户口的公职人员,建议携带工作证、身份证、结婚证/离婚证、独生子女证、健康证、暂住证、毕业证、边防证、县以上政府机关出具的介绍信温情操作。抓捕按照以下排序倒序:作者、原作者以及网络管理员以及网络运行商、电信运营商、电力供应商、电脑生产销售商.