摘要:
1、选择对应的版本进行下载https://golang.google.cn/dl/ 2、下载完成之后进行安装 3、安装完成之后将/usr/local/go/bin目录添加到当前系统环境变量中 4、测试安装是否成功 package main import ( "fmt" ) func main() { 阅读全文
摘要:
scrapy-redis的源码并不多,因为它是利用Redis数据库重新实现了scrapy中的某些组件 对于一个分布式爬虫框架: 1、分配爬取的任务,为每个爬虫分配不重复的爬取任务 2、汇总爬取的数据,将所有爬取到的数据汇总到一个地方 scrapy-redis为多个爬虫分配爬取任务的方式是:让所有爬虫 阅读全文
摘要:
信息源是搜狗微信,就爬到的数据保存到MySQL中 搜狗对微信公众号和文章做了整合,我们可以直接通过链接搜索到相关的公众号和文章 例如搜索NBA,搜索的结果的URL中有很多无关的GET请求的参数,手动将无关的请求参数去掉,其中只保留type和query,其中type表示的是搜索微信文章,query表示 阅读全文
摘要:
1、安装chrome 用下面的命令安装Google Chrome yum install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm 也可以先下载至本地,然后安装 wget https://dl 阅读全文
摘要:
HTTP代理服务器可以比作客户端与Web服务器网站之间的一个信息中转站,客户端发送的HTTP请求和Web服务器返回的HTTP响应通过代理服务器转发给对方, 爬虫程序在爬取某些网站的时候也需要使用代理,例如 由于网络环境因素,直接爬取的速度太慢了,使用代理提高爬取的速度 某些网站读用户的访问速度进行限 阅读全文
摘要:
登录的实质就是朝着服务器发送含有登录表单数据的HTTP请求(通常都是POST)。 scrapy提供了一个FormRequest类,是Request的子类,专门用来构造含有表单数据的请求,FormRequest的构造器方法有一个formdata参数,接受字典形式的表单数据。 在spider中使用For 阅读全文
摘要:
下载文件是一种很常见的需求,例如当你在使用爬虫爬取网站中的图片、视频、word、pdf、压缩包等的时候 scrapy中提供了FilesPipeline和ImagesPipeline,专门用来下载文件和图片: 我们其实可以把这两个item pipeline看成是特殊的下载器,用户使用的时候只需要通过i 阅读全文
摘要:
le = LinkExtractor(restrict_css='ul.pager li.next') links = le.extract_links(response) 使用LinkExtractor的过程: 导入LinkExtractor,它是在scrapy中linkextractors中 创 阅读全文
摘要:
利用item pipeline可以实现将数据存入数据库的操作,可以创建一个关于数据库的item pipeline 需要在类属性中定义两个常量 DB_URL:数据库的URL地址 DB_NAME:数据库的名字 在Spider爬取的整个过程中,数据库的连接和关闭操作只需要进行一次就可以,应该在开始处理之前 阅读全文
摘要:
当为了确保爬到的数据中没有重复的数据的时候,可以实现一个去重的item pipeline 增加构造器方法,在其中初始化用于对与书名的去重的集合 在process_item方法中,先取出item中要判断的字段的名称,检查是否已经存在集合中了,如果已经存在了就是重复的数据抛出一个DropItem的异常, 阅读全文