随笔分类 -  爬虫

摘要:分析: 1、先查看返回的内容是否与显示的内容一样 2、再看页数的变化,每次会加一,总共13页,因此可以一次性构造地址列表 3、因此可直接结合 chrome插件 xpath helper 与 elemetns显示的内容进行定位要爬取的内容 用到的模块 requests+json+lxml+xpath 阅读全文
posted @ 2019-06-18 11:40 烛爻 阅读(196) 评论(0) 推荐(0) 编辑
摘要:主要对豆瓣高分电影,按热度排序进行电影信息的爬取 分析 按F12打开开发者工具,点击XHR标签,因为他是通过ajax加载获取更多的电影信息的。返回的信息是json格式的数据,包含了每部电影详情的链接信息,先获取这些信息 页码每次最后的 page_start参数 加20可以换到下一页 下面是详细代码 阅读全文
posted @ 2019-06-17 01:53 烛爻 阅读(530) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示