2019 年 5月 6 日随笔档案 - 追风zz

2019年5月6日

摘要： scrapy框架框架介绍: Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。 - 阅读全文

posted @ 2019-05-06 23:28 追风zz 阅读(160) 评论(0) 推荐(0) 编辑

0 爬虫概览

摘要：项目创建流程持久化存储基于终端指令基于管道管道持久化存储编码流程数据解析对item的类进行相关的属性定义将解析到的数据封装到item类型的对象中将item提交给管道在管道中进行持久化存储的操作在配置文件中开启管道注意事项一个管道类对应一个存储的载体 process_item方阅读全文

posted @ 2019-05-06 22:02 追风zz 阅读(348) 评论(0) 推荐(0) 编辑

3 爬虫cookie的处理办法

摘要： cookie的应用和处理阅读全文

posted @ 2019-05-06 19:30 追风zz 阅读(1836) 评论(0) 推荐(0) 编辑

5 asyncio 梨视频

摘要： # 如何提升requests模块爬取数据的效率?- 多进程或多线程(不建议) 太耗费资源- 线程池或进程池(适当使用) - 单线程 + 异步协程(推荐) # 线程池使用案例 # 梨视频下载作业 import random from lxml import etree from multiprocessing.dummy import Pool # 线程 import requests ... 阅读全文

posted @ 2019-05-06 11:29 追风zz 阅读(387) 评论(0) 推荐(0) 编辑

4 中文乱码 selenium的使用

摘要： # 中文乱码 # 构建代理池http_list = [ {'http':'60.190.250.120:8080'}, {'http':'60.190.250.120:8080'}, {'http':'60.190.250.120:8080'}]https_list = [ {'https':'60 阅读全文

posted @ 2019-05-06 09:07 追风zz 阅读(4771) 评论(0) 推荐(0) 编辑

追风zz

我一路向北离开有你的季节

公告

追风zz

我一路向北 离开有你的季节

公告

我一路向北离开有你的季节