上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 19 下一页
摘要: # 一些概念 # UA池 代理IP池 scrapy的下载中间件 - 在scrapy中如何给所有的请求对象尽可能多的设置不一样的请求载体身份标识 - UA池,process_request(request) - 在scrapy中如何给发生异常的请求设置代理ip - ip池,process_except 阅读全文
posted @ 2019-05-09 09:15 追风zz 阅读(326) 评论(0) 推荐(0) 编辑
摘要: 基于requests 模块 下面是scrapy和selenium配合的使用 阅读全文
posted @ 2019-05-08 20:36 追风zz 阅读(586) 评论(0) 推荐(0) 编辑
摘要: # 下面是12306 实现的模拟登陆 # 解码 应用超级鹰,注册用户,左侧栏软件ID进去,开启一个新软件,拿到软件ID # 下面测试都在jupyter里面实现 # 下面是12306 页面的处理 阅读全文
posted @ 2019-05-07 17:26 追风zz 阅读(625) 评论(0) 推荐(0) 编辑
摘要: scrapy框架 框架介绍: Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。 - 阅读全文
posted @ 2019-05-06 23:28 追风zz 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 项目创建流程 持久化存储 基于终端指令 基于管道 管道持久化存储编码流程 数据解析 对item的类进行相关的属性定义 将解析到的数据封装到item类型的对象中 将item提交给管道 在管道中进行持久化存储的操作 在配置文件中开启管道 注意事项 一个管道类对应一个存储的载体 process_item方 阅读全文
posted @ 2019-05-06 22:02 追风zz 阅读(348) 评论(0) 推荐(0) 编辑
摘要: cookie的应用和处理 阅读全文
posted @ 2019-05-06 19:30 追风zz 阅读(1836) 评论(0) 推荐(0) 编辑
摘要: # 如何提升requests模块爬取数据的效率?- 多进程或多线程(不建议) 太耗费资源- 线程池或进程池(适当使用) - 单线程 + 异步协程(推荐) # 线程池使用案例 # 梨视频 下载作业 import random from lxml import etree from multiprocessing.dummy import Pool # 线程 import requests ... 阅读全文
posted @ 2019-05-06 11:29 追风zz 阅读(387) 评论(0) 推荐(0) 编辑
摘要: # 中文乱码 # 构建代理池http_list = [ {'http':'60.190.250.120:8080'}, {'http':'60.190.250.120:8080'}, {'http':'60.190.250.120:8080'}]https_list = [ {'https':'60 阅读全文
posted @ 2019-05-06 09:07 追风zz 阅读(4770) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/DragonFire/p/9220523.html -- jieba gensim 最好别分家之最简单的相似度实现 # # 阅读全文
posted @ 2019-05-04 22:35 追风zz 阅读(292) 评论(0) 推荐(0) 编辑
摘要: # -回顾- 阅读全文
posted @ 2019-05-01 16:50 追风zz 阅读(161) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 19 下一页