网络爬虫和robots.txt
一般每个网站的目录下都有一个robots.txt文件,这个文件告诉了搜索引擎的网络爬虫可以访问该网站的哪些目录和文件以及不可以访问该网站的哪些目录和文件。
每个网站的网址的斜线后加一个robots.txt即可直接读取该文件内容,例如:
www.google.com/robots.txt
ps. google的这个robots.txt很多内容,一般网站的robots.txt内容很短,只有几行
Labels: Operation and Maintenance
一般每个网站的目录下都有一个robots.txt文件,这个文件告诉了搜索引擎的网络爬虫可以访问该网站的哪些目录和文件以及不可以访问该网站的哪些目录和文件。
Labels: Operation and Maintenance
0 Comments:
Post a Comment
Subscribe to Post Comments [Atom]
<< Home