2016 年 8月 31 日随笔档案 - 罗兵

2016年8月31日

摘要： "useragentstring.com" 网站几乎廊括了所有的User Agent，刚学了scrapy，打算那它练手，把上面的 user agent 爬取下来。本文只爬取常见的 FireFox, Chrome, Opera, Safri, Internet Explorer 一、创建爬虫项目 1 阅读全文

posted @ 2016-08-31 15:29 罗兵阅读(1522) 评论(0) 推荐(0) 编辑

收集的User-Agent

摘要： ```python headers = [ {"User-Agent": "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)"}, {"User-Agent": "Mozilla/4.0 (compatible; MSIE 7.0... 阅读全文

posted @ 2016-08-31 13:24 罗兵阅读(463) 评论(0) 推荐(0) 编辑

scrapy 登录

摘要：说明：本文参考了官网文档，以及stackoverflow的几个问题注意：下面这个爬虫不能实际运行！我只是用它来展示登录，以及之后如何处理。方式一：FormRequest 方式二：FormRequest.from_response 阅读全文

posted @ 2016-08-31 10:17 罗兵阅读(442) 评论(0) 推荐(0) 编辑

scrapy 代理

摘要：说明：本文参照了官网文档，以及stackoverflow的几个问题概要：在scrapy中使用代理，有两种使用方式 1. 使用中间件 2. 直接设置Request类的meta参数方式一：使用中间件要进行下面两步操作 1. 在文件 settings.py 中激活代理中间件 2. 在文件 m 阅读全文

posted @ 2016-08-31 10:05 罗兵阅读(2365) 评论(0) 推荐(1) 编辑

公告