摘要: "useragentstring.com" 网站几乎廊括了所有的User Agent,刚学了scrapy,打算那它练手,把上面的 user agent 爬取下来。 本文只爬取常见的 FireFox, Chrome, Opera, Safri, Internet Explorer 一、创建爬虫项目 1 阅读全文
posted @ 2016-08-31 15:29 罗兵 阅读(1522) 评论(0) 推荐(0) 编辑
摘要: ```python headers = [ {"User-Agent": "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)"}, {"User-Agent": "Mozilla/4.0 (compatible; MSIE 7.0... 阅读全文
posted @ 2016-08-31 13:24 罗兵 阅读(463) 评论(0) 推荐(0) 编辑
摘要: 说明 : 本文参考了官网文档,以及stackoverflow的几个问题 注意 : 下面这个爬虫不能实际运行!我只是用它来展示登录,以及之后如何处理。 方式一:FormRequest 方式二:FormRequest.from_response 阅读全文
posted @ 2016-08-31 10:17 罗兵 阅读(442) 评论(0) 推荐(0) 编辑
摘要: 说明 : 本文参照了官网文档,以及stackoverflow的几个问题 概要 : 在scrapy中使用代理,有两种使用方式 1. 使用中间件 2. 直接设置Request类的meta参数 方式一:使用中间件 要进行下面两步操作 1. 在文件 settings.py 中激活代理中间件 2. 在文件 m 阅读全文
posted @ 2016-08-31 10:05 罗兵 阅读(2365) 评论(0) 推荐(1) 编辑