摘要: 第三百五十节,Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块,可以实现js动态网页请求 selenium模块 selenium模块为第三方模块需要安装,selenium模块是一个操作各种浏览器对应软件的api接口模块 seleniu 阅读全文
posted @ 2017-08-24 20:26 林贵秀 阅读(468) 评论(0) 推荐(0) 编辑
摘要: 第三百四十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—cookie禁用、自动限速、自定义spider的settings,对抗反爬机制 cookie禁用 就是在Scrapy的配置文件settings.py里禁用掉cookie禁用,可以防止被通过cookie禁用识别到是爬虫,注意,只适用于 阅读全文
posted @ 2017-08-24 14:10 林贵秀 阅读(1148) 评论(0) 推荐(0) 编辑
摘要: 第三百四十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—通过自定义中间件全局随机更换代理IP 设置代理ip只需要,自定义一个中间件,重写process_request方法, request.meta['proxy'] = "http://185.82.203.146:1080" 设置代理 阅读全文
posted @ 2017-08-24 13:17 林贵秀 阅读(627) 评论(0) 推荐(0) 编辑