了解robots协议


robots协议

robots.txt是用于通知爬虫的,内容包含了不希望被爬的信息

如:

1.不要访问某个文件、文件夹

2.禁止某些爬虫的访问

3.限制爬虫访问网站的频率

如何查看robots.txt

网址/robots.txt

如:cn.bing.com/robots.txt

参数:

1.User-agent: 爬虫的名称(User-agent是*,则表示对象是所有爬虫。)

2.Disallow: 不允许爬虫访问的地址(Disallow: /表示所有文件不可以爬)

3.Allow: 允许爬虫访问的地址


  目录