摘要: robots协议 Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准” 阅读全文
posted @ 2018-09-24 01:11 python入门小菜鸟 阅读(743) 评论(0) 推荐(1) 编辑
摘要: 注意:抓取内容之前一定要查看下Robots协议 1、准备工作 1》第一步,安装python,安装requests、json库。 2、抓取分析 1》接下来我们打开网页分析下猫眼电影排行榜 2》猫眼电影排行榜的网址(http://maoyan.com/board/4) 3》拉到最下面,可以看到第一页只有 阅读全文
posted @ 2018-09-24 01:08 python入门小菜鸟 阅读(2925) 评论(1) 推荐(1) 编辑