摘要: 1、安装chrome 用下面的命令安装Google Chrome yum install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm 也可以先下载至本地,然后安装 wget https://dl 阅读全文
posted @ 2019-10-22 14:47 tulintao 阅读(13042) 评论(0) 推荐(2) 编辑
摘要: HTTP代理服务器可以比作客户端与Web服务器网站之间的一个信息中转站,客户端发送的HTTP请求和Web服务器返回的HTTP响应通过代理服务器转发给对方, 爬虫程序在爬取某些网站的时候也需要使用代理,例如 由于网络环境因素,直接爬取的速度太慢了,使用代理提高爬取的速度 某些网站读用户的访问速度进行限 阅读全文
posted @ 2019-10-22 14:41 tulintao 阅读(641) 评论(0) 推荐(0) 编辑
摘要: 登录的实质就是朝着服务器发送含有登录表单数据的HTTP请求(通常都是POST)。 scrapy提供了一个FormRequest类,是Request的子类,专门用来构造含有表单数据的请求,FormRequest的构造器方法有一个formdata参数,接受字典形式的表单数据。 在spider中使用For 阅读全文
posted @ 2019-10-22 09:26 tulintao 阅读(246) 评论(0) 推荐(0) 编辑