摘要: Robots协议 全称网络爬虫排除标准。 作用:告知网络爬虫哪些页面可以爬取,哪些不可以。 形式:在网络根目录下的robots.txt文件。 Ex.查看京东网站的robots.txt文件 Robots协议的使用 爬虫应该自动识别robots.txt文件,再进行内容爬取。 实战 实战1 --京东商品 阅读全文
posted @ 2021-02-18 16:34 sxhyyq 阅读(102) 评论(0) 推荐(0) 编辑