robots协议
robots.txt是用于通知爬虫的,内容包含了不希望被爬的信息
如:
1.不要访问某个文件、文件夹
2.禁止某些爬虫的访问
3.限制爬虫访问网站的频率
如何查看robots.txt
网址/robots.txt
如:cn.bing.com/robots.txt
参数:
1.User-agent: 爬虫的名称(User-agent是*,则表示对象是所有爬虫。)
2.Disallow: 不允许爬虫访问的地址(Disallow: /表示所有文件不可以爬)
3.Allow: 允许爬虫访问的地址