摘要: scrapy框架 框架介绍: Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。 - 阅读全文
posted @ 2019-05-06 23:28 追风zz 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 项目创建流程 持久化存储 基于终端指令 基于管道 管道持久化存储编码流程 数据解析 对item的类进行相关的属性定义 将解析到的数据封装到item类型的对象中 将item提交给管道 在管道中进行持久化存储的操作 在配置文件中开启管道 注意事项 一个管道类对应一个存储的载体 process_item方 阅读全文
posted @ 2019-05-06 22:02 追风zz 阅读(348) 评论(0) 推荐(0) 编辑
摘要: cookie的应用和处理 阅读全文
posted @ 2019-05-06 19:30 追风zz 阅读(1836) 评论(0) 推荐(0) 编辑
摘要: # 如何提升requests模块爬取数据的效率?- 多进程或多线程(不建议) 太耗费资源- 线程池或进程池(适当使用) - 单线程 + 异步协程(推荐) # 线程池使用案例 # 梨视频 下载作业 import random from lxml import etree from multiprocessing.dummy import Pool # 线程 import requests ... 阅读全文
posted @ 2019-05-06 11:29 追风zz 阅读(387) 评论(0) 推荐(0) 编辑
摘要: # 中文乱码 # 构建代理池http_list = [ {'http':'60.190.250.120:8080'}, {'http':'60.190.250.120:8080'}, {'http':'60.190.250.120:8080'}]https_list = [ {'https':'60 阅读全文
posted @ 2019-05-06 09:07 追风zz 阅读(4771) 评论(0) 推荐(0) 编辑