追风zz

2019年5月9日

摘要： # 一些概念 # UA池代理IP池 scrapy的下载中间件 - 在scrapy中如何给所有的请求对象尽可能多的设置不一样的请求载体身份标识 - UA池，process_request(request) - 在scrapy中如何给发生异常的请求设置代理ip - ip池，process_except 阅读全文

posted @ 2019-05-09 09:15 追风zz 阅读(326) 评论(0) 推荐(0) 编辑

2019年5月8日

网易新闻爬取

摘要：基于requests 模块下面是scrapy和selenium配合的使用阅读全文

posted @ 2019-05-08 20:36 追风zz 阅读(586) 评论(0) 推荐(0) 编辑

2019年5月7日

12306 selenium 模拟登录

摘要： # 下面是12306 实现的模拟登陆 # 解码应用超级鹰,注册用户,左侧栏软件ID进去,开启一个新软件,拿到软件ID # 下面测试都在jupyter里面实现 # 下面是12306 页面的处理阅读全文

posted @ 2019-05-07 17:26 追风zz 阅读(625) 评论(0) 推荐(0) 编辑

2019年5月6日

7 scrapy 初识

摘要： scrapy框架框架介绍: Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。 - 阅读全文

posted @ 2019-05-06 23:28 追风zz 阅读(160) 评论(0) 推荐(0) 编辑

0 爬虫概览

摘要：项目创建流程持久化存储基于终端指令基于管道管道持久化存储编码流程数据解析对item的类进行相关的属性定义将解析到的数据封装到item类型的对象中将item提交给管道在管道中进行持久化存储的操作在配置文件中开启管道注意事项一个管道类对应一个存储的载体 process_item方阅读全文

posted @ 2019-05-06 22:02 追风zz 阅读(348) 评论(0) 推荐(0) 编辑

3 爬虫cookie的处理办法

摘要： cookie的应用和处理阅读全文

posted @ 2019-05-06 19:30 追风zz 阅读(1836) 评论(0) 推荐(0) 编辑

5 asyncio 梨视频

摘要： # 如何提升requests模块爬取数据的效率?- 多进程或多线程(不建议) 太耗费资源- 线程池或进程池(适当使用) - 单线程 + 异步协程(推荐) # 线程池使用案例 # 梨视频下载作业 import random from lxml import etree from multiprocessing.dummy import Pool # 线程 import requests ... 阅读全文

posted @ 2019-05-06 11:29 追风zz 阅读(387) 评论(0) 推荐(0) 编辑

4 中文乱码 selenium的使用

摘要： # 中文乱码 # 构建代理池http_list = [ {'http':'60.190.250.120:8080'}, {'http':'60.190.250.120:8080'}, {'http':'60.190.250.120:8080'}]https_list = [ {'https':'60 阅读全文

posted @ 2019-05-06 09:07 追风zz 阅读(4770) 评论(0) 推荐(0) 编辑

2019年5月4日

NLP 自然语言处理

摘要： http://www.cnblogs.com/DragonFire/p/9220523.html -- jieba gensim 最好别分家之最简单的相似度实现 # # 阅读全文

posted @ 2019-05-04 22:35 追风zz 阅读(292) 评论(0) 推荐(0) 编辑

2019年5月1日

基础1

摘要： # -回顾- 阅读全文

posted @ 2019-05-01 16:50 追风zz 阅读(161) 评论(0) 推荐(0) 编辑

我一路向北离开有你的季节

公告

追风zz

我一路向北 离开有你的季节

公告

我一路向北离开有你的季节