tulintao

2019年11月4日

摘要： 1、选择对应的版本进行下载https://golang.google.cn/dl/ 2、下载完成之后进行安装 3、安装完成之后将/usr/local/go/bin目录添加到当前系统环境变量中 4、测试安装是否成功 package main import ( "fmt" ) func main() { 阅读全文

posted @ 2019-11-04 17:12 tulintao 阅读(139) 评论(0) 推荐(0) 编辑

2019年10月25日

scrapy-redis

摘要： scrapy-redis的源码并不多，因为它是利用Redis数据库重新实现了scrapy中的某些组件对于一个分布式爬虫框架： 1、分配爬取的任务，为每个爬虫分配不重复的爬取任务 2、汇总爬取的数据，将所有爬取到的数据汇总到一个地方 scrapy-redis为多个爬虫分配爬取任务的方式是：让所有爬虫阅读全文

posted @ 2019-10-25 14:06 tulintao 阅读(249) 评论(0) 推荐(0) 编辑

2019年10月24日

使用代理的爬虫

摘要：信息源是搜狗微信，就爬到的数据保存到MySQL中搜狗对微信公众号和文章做了整合，我们可以直接通过链接搜索到相关的公众号和文章例如搜索NBA，搜索的结果的URL中有很多无关的GET请求的参数，手动将无关的请求参数去掉，其中只保留type和query，其中type表示的是搜索微信文章，query表示阅读全文

posted @ 2019-10-24 20:12 tulintao 阅读(955) 评论(0) 推荐(0) 编辑

2019年10月22日

在Linux中使用selenium（环境部署）

摘要： 1、安装chrome 用下面的命令安装Google Chrome yum install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm 也可以先下载至本地，然后安装 wget https://dl 阅读全文

posted @ 2019-10-22 14:47 tulintao 阅读(13059) 评论(0) 推荐(2) 编辑

使用HTTP代理

摘要： HTTP代理服务器可以比作客户端与Web服务器网站之间的一个信息中转站，客户端发送的HTTP请求和Web服务器返回的HTTP响应通过代理服务器转发给对方，爬虫程序在爬取某些网站的时候也需要使用代理，例如由于网络环境因素，直接爬取的速度太慢了，使用代理提高爬取的速度某些网站读用户的访问速度进行限阅读全文

posted @ 2019-10-22 14:41 tulintao 阅读(647) 评论(0) 推荐(0) 编辑

scrapy模拟登录

摘要：登录的实质就是朝着服务器发送含有登录表单数据的HTTP请求（通常都是POST）。 scrapy提供了一个FormRequest类，是Request的子类，专门用来构造含有表单数据的请求，FormRequest的构造器方法有一个formdata参数，接受字典形式的表单数据。在spider中使用For 阅读全文

posted @ 2019-10-22 09:26 tulintao 阅读(250) 评论(0) 推荐(0) 编辑

2019年10月19日

scrapy中下载文件和图片

摘要：下载文件是一种很常见的需求，例如当你在使用爬虫爬取网站中的图片、视频、word、pdf、压缩包等的时候 scrapy中提供了FilesPipeline和ImagesPipeline，专门用来下载文件和图片：我们其实可以把这两个item pipeline看成是特殊的下载器，用户使用的时候只需要通过i 阅读全文

posted @ 2019-10-19 13:39 tulintao 阅读(2008) 评论(0) 推荐(0) 编辑

scrapy中使用LinkExtractor提取链接

摘要： le = LinkExtractor(restrict_css='ul.pager li.next') links = le.extract_links(response) 使用LinkExtractor的过程：导入LinkExtractor，它是在scrapy中linkextractors中创阅读全文

posted @ 2019-10-19 10:25 tulintao 阅读(1294) 评论(0) 推荐(0) 编辑

在scrapy中将数据保存到mongodb中

摘要：利用item pipeline可以实现将数据存入数据库的操作，可以创建一个关于数据库的item pipeline 需要在类属性中定义两个常量 DB_URL：数据库的URL地址 DB_NAME：数据库的名字在Spider爬取的整个过程中，数据库的连接和关闭操作只需要进行一次就可以，应该在开始处理之前阅读全文

posted @ 2019-10-19 09:00 tulintao 阅读(841) 评论(0) 推荐(0) 编辑

2019年10月18日

在scrapy中过滤重复的数据

摘要：当为了确保爬到的数据中没有重复的数据的时候，可以实现一个去重的item pipeline 增加构造器方法，在其中初始化用于对与书名的去重的集合在process_item方法中，先取出item中要判断的字段的名称，检查是否已经存在集合中了，如果已经存在了就是重复的数据抛出一个DropItem的异常，阅读全文

posted @ 2019-10-18 19:53 tulintao 阅读(764) 评论(0) 推荐(0) 编辑

公告