8/05/2006

AdSense.com背后的故事

 Google AdSense是Google在2003年3月份推出的针对网站发布者的网络广告服务,在本站你所看到的"Google提供的广告"即属AdSense广 告。AdSense现在是互联网的主流广告投放服务,在世界范围内拥有无数的发布者。不过如果你访问AdSense.com,你会发现去到一个完全与 Google AdSense不相关的网站,并且在它的首页的下面,有这样一段话(译):"如果你认为你能通过放置其他人的广告在你的网站或blog里而快速致富,请联 系Google,因为它未经许可或赔偿就拿走及使用我们的公司名称。"很明显,AdSense.com不但不属于Google,它与Google之间应该 还有一段恩怨。究竟怎么回事

  Wired披 露了AdSense.com背后的故事。首先,AdSense.com是美国俄勒冈州的一家小型咨询公司,它的名字就叫做AdSense Consulting,刚好和Google的AdSense广告服务同名。但AdSense.com这个域名在1996年的时候就已经被该公司的创始人 Alexis Garrett注册了,远比Google推出AdSense的2003年要早。

  当Google推出AdSense的时 候,Alexis Garrett以为这将会是一件好事,因为很多Google用户会以为AdSense.com是属于Google的,很自然会访问它,这样可能会给这间只 有三名全职员工的小公司带来一定的生意。但结果却证明了Alexis Garrett的猜测是错误的。因为不但Google用户以为这个域名是Google的,就连垃圾邮件也盯上了它,天天给它发送无数垃圾邮件,以致 AdSense.com不得不把自己的邮箱从主页上撤走。另外,不知情的Google用户天天打电话到这个小公司询问Google AdSense相关的问题。这间可怜的小公司只得花大量的时间和精力一遍又一遍地向来电者说明它的业务与Google AdSense完全无关,它自己也不是属于Google的。

  面对如此这般的折磨,AdSense Consulting终于受不了了,Alexis Garrett在2005年9月份的时候把AdSense.com卖给了一名匿名买家。但新买家要到2006年9月之后才拥有AdSense.com,因 此现在你访问AdSense.com,看到的依然只是AdSense Consulting的主页。另外,AdSense Consulting已经给自己购买了另外一个域名,即AdSense2.com,这样就能避免了大量的不必要的困扰。

  那到底那位买 下AdSense.com的匿名买家是谁呢?是不是Google自己?Google AdSense的代表Brandon McCormick没有对这间小公司发表任何评论,但他说Google并没有买下AdSense.com。其实早在2004年,AdSense Consulting受到极大困扰的时候,它就曾经联系过Google,想把AdSense.com卖给Google,但Google在2004年11月 的一封邮件里拒绝了AdSense Consulting的好意。不过这未不能完全说明Google不是那个匿名买家,因为Google已经拥有了adsense.net及 adwords.com。

  但AdSense这个商标是由Google合法持有的,更早注册AdSense.com的AdSense Consulting反而没有拥有AdSense这个商标。另外,Alexis Garrett说她曾经想过对Google采取法律行动,但她表示自己没有能力担负得起诉讼费,所以至今仍没有行动。

  从 AdSense.com的事件里我们可以看到比Google抢先拥有相关的域名并不一定就是好事,尤其是当你势单力薄的时候。你可能会有这样的想法:既然 大家以为AdSense.com是Google的,那么这个域名的真正主人AdSense Consulting为什么不借这个机会真的投放Google的AdSense广告,以获得一些广告收入呢?这样也算是一种补偿了。

   这个想法非常的好,将错就错也未尝不可。但事实上Alexis Garrett在一年半之前就试过亲自去为AdSense.com申请Google AdSense广告,但讽剌的是Google拒绝了她的申请,Google认为AdSense.com没有符合AdSense广告投放的资格。

  至于AdSense.com的新主人到底是不是Google,恐怕要到2006年9月之后才知道了。不过AdSense Consulting的遭遇的确挺令人同情的。

  对于不太了解Google AdSense的读者,可以通过下面的网址访问Google AdSense:

  http://adsense.google.com 或 http://www.google.com/adsense

8/02/2006

如何写robots.txt

在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作。

robots.txt基本介绍
robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
robots.txt写作语法
首先,我们来看一个robots.txt范例:http://www.csswebs.org/robots.txt
访问以上具体地址,我们可以看到robots.txt的具体内容如下:
# Robots.txt file from http://www.csswebs.org# All robots will spider the domain
User-agent: *Disallow:
以上文本表达的意思是允许所有的搜索机器人访问www.csswebs.org站点下的所有文件。
具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。
下面,我将列举一些robots.txt的具体用法:
允许所有的robot访问
User-agent: *Disallow:
或者也可以建一个空文件 “/robots.txt” file
禁止所有搜索引擎访问网站的任何部分
User-agent: *Disallow: /
禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)
User-agent: *Disallow: /01/Disallow: /02/Disallow: /03/
禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBotDisallow: /
只允许某个搜索引擎的访问(下例中的Crawler)
User-agent: CrawlerDisallow:
User-agent: *Disallow: /
另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:
Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。
Robots META标签的写法:
Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。
INDEX 指令告诉搜索机器人抓取该页面;
FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。
这样,一共有四种组合:
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”><META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”><META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”><META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>
其中
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”ALL”>;
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”NONE”>
目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:
<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>
表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。
特别说明,本文章的写作参考了一些网络信息,robin只是按照自己的思路对信息进行整理。
http://www.dunsh.org/2006/08/02/robotstxt/

7/30/2006

Blogger解封了吗

 不知道发生了什么事情,Google的Blogger突然解封,现在blogspot.com终于可以正常访问了。
  不知道这样的好事能持续多久,因为以前出现过blogspot暂时被解封,而后又继续被封的现象,如果其真的可以一直解封的话,国内的博客们就又有一个新的托管地址了。
  另外值得一提的是昨天封的FeedBurner也同时被解封,希望这次解封不要是短暂的一刻,具体是什么状况还需要长期观察一下。
  下午之后,发现blogspot.com又无法访问了,因此怀疑,可能是blogspot.com更改了IP地址,所以才导致简短的“解封”,然而之后又被强行封锁。