上一页 1 2 3 4 5 6 7 8 9 ··· 17 下一页
摘要: 1、选择对应的版本进行下载https://golang.google.cn/dl/ 2、下载完成之后进行安装 3、安装完成之后将/usr/local/go/bin目录添加到当前系统环境变量中 4、测试安装是否成功 package main import ( "fmt" ) func main() { 阅读全文
posted @ 2019-11-04 17:12 tulintao 阅读(139) 评论(0) 推荐(0) 编辑
摘要: scrapy-redis的源码并不多,因为它是利用Redis数据库重新实现了scrapy中的某些组件 对于一个分布式爬虫框架: 1、分配爬取的任务,为每个爬虫分配不重复的爬取任务 2、汇总爬取的数据,将所有爬取到的数据汇总到一个地方 scrapy-redis为多个爬虫分配爬取任务的方式是:让所有爬虫 阅读全文
posted @ 2019-10-25 14:06 tulintao 阅读(249) 评论(0) 推荐(0) 编辑
摘要: 信息源是搜狗微信,就爬到的数据保存到MySQL中 搜狗对微信公众号和文章做了整合,我们可以直接通过链接搜索到相关的公众号和文章 例如搜索NBA,搜索的结果的URL中有很多无关的GET请求的参数,手动将无关的请求参数去掉,其中只保留type和query,其中type表示的是搜索微信文章,query表示 阅读全文
posted @ 2019-10-24 20:12 tulintao 阅读(955) 评论(0) 推荐(0) 编辑
摘要: 1、安装chrome 用下面的命令安装Google Chrome yum install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm 也可以先下载至本地,然后安装 wget https://dl 阅读全文
posted @ 2019-10-22 14:47 tulintao 阅读(13059) 评论(0) 推荐(2) 编辑
摘要: HTTP代理服务器可以比作客户端与Web服务器网站之间的一个信息中转站,客户端发送的HTTP请求和Web服务器返回的HTTP响应通过代理服务器转发给对方, 爬虫程序在爬取某些网站的时候也需要使用代理,例如 由于网络环境因素,直接爬取的速度太慢了,使用代理提高爬取的速度 某些网站读用户的访问速度进行限 阅读全文
posted @ 2019-10-22 14:41 tulintao 阅读(647) 评论(0) 推荐(0) 编辑
摘要: 登录的实质就是朝着服务器发送含有登录表单数据的HTTP请求(通常都是POST)。 scrapy提供了一个FormRequest类,是Request的子类,专门用来构造含有表单数据的请求,FormRequest的构造器方法有一个formdata参数,接受字典形式的表单数据。 在spider中使用For 阅读全文
posted @ 2019-10-22 09:26 tulintao 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 下载文件是一种很常见的需求,例如当你在使用爬虫爬取网站中的图片、视频、word、pdf、压缩包等的时候 scrapy中提供了FilesPipeline和ImagesPipeline,专门用来下载文件和图片: 我们其实可以把这两个item pipeline看成是特殊的下载器,用户使用的时候只需要通过i 阅读全文
posted @ 2019-10-19 13:39 tulintao 阅读(2008) 评论(0) 推荐(0) 编辑
摘要: le = LinkExtractor(restrict_css='ul.pager li.next') links = le.extract_links(response) 使用LinkExtractor的过程: 导入LinkExtractor,它是在scrapy中linkextractors中 创 阅读全文
posted @ 2019-10-19 10:25 tulintao 阅读(1294) 评论(0) 推荐(0) 编辑
摘要: 利用item pipeline可以实现将数据存入数据库的操作,可以创建一个关于数据库的item pipeline 需要在类属性中定义两个常量 DB_URL:数据库的URL地址 DB_NAME:数据库的名字 在Spider爬取的整个过程中,数据库的连接和关闭操作只需要进行一次就可以,应该在开始处理之前 阅读全文
posted @ 2019-10-19 09:00 tulintao 阅读(841) 评论(0) 推荐(0) 编辑
摘要: 当为了确保爬到的数据中没有重复的数据的时候,可以实现一个去重的item pipeline 增加构造器方法,在其中初始化用于对与书名的去重的集合 在process_item方法中,先取出item中要判断的字段的名称,检查是否已经存在集合中了,如果已经存在了就是重复的数据抛出一个DropItem的异常, 阅读全文
posted @ 2019-10-18 19:53 tulintao 阅读(764) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 17 下一页