csatblogspotdotcom

Saturday, November 22, 2008

网络爬虫和robots.txt

一般每个网站的目录下都有一个robots.txt文件,这个文件告诉了搜索引擎的网络爬虫可以访问该网站的哪些目录和文件以及不可以访问该网站的哪些目录和文件。
每个网站的网址的斜线后加一个robots.txt即可直接读取该文件内容,例如:
www.google.com/robots.txt

ps. google的这个robots.txt很多内容,一般网站的robots.txt内容很短,只有几行

Labels:

0 Comments:

Post a Comment

Subscribe to Post Comments [Atom]

<< Home