随笔分类 - python爬虫笔记
摘要:- 图片懒加载 - 应用到标签的伪属性,数据捕获的时候一定是基于伪属性进行!!! 就比如本来是<img src='xxx',,,, 由于懒加载机制 变成了 <img src2='xxx'... 爬取src数据 就需要变成爬取src2数据啦~~~!!! 图片存储到本地 ImagesPipeline 专
阅读全文
摘要:- 管道的持久化存储: - 数据解析(爬虫类) - 将解析的数据封装到item类型的对象中(爬虫类) - 将item提交给管道:yield item(爬虫类) - 在官大类的process_item中接收item对象并且进行任意形式的持久化存储操作(管道类) - 在配置文件中开启管道 - 细节:-
阅读全文
摘要:Scrapy框架的使用 - pySpider- 什么是框架? - 就是一个具有很强通用性且集成了很多功能的项目模板(可以被应用在各种需求中)- scrapy集成好的功能: - 高性能的数据解析操作(xpath) - 高性能的数据下载 - 高性能的持久化存储 - 中间件 - 全栈数据爬取操作 - 分布
阅读全文
摘要:分析:波波老师的讲解 1.改变页面中的查询条件,然后点击查询按钮,通过抓包工具捕获相关的数据包,最终定位到了想要的空气质量数据对应的数据包 2.该数据包中发现:post请求携带了一个动态变化且加密的请求参数d,并且请求到的数据也是一组密文数据。 3.发现点击了查询按钮后发起了一个ajax请求,该请求
阅读全文
摘要:- cookie的处理 - 手动处理 - cookie从抓包工具中捕获封装到headers中 - 自动处理 - session对象。- 代理 - 代理服务器 - 进行请求转发 - 代理ip:port作用到get、post方法的proxies = {'http':'ip:port'}中 - 代理池(列
阅读全文
摘要:- HttpConnectinPool: - 原因: - 1.短时间内发起了高频的请求导致ip被禁 - 2.http连接池中的连接资源被耗尽 - 解决: - 1.代理 - 2.headers中加入Conection:“close” - 代理:代理服务器,可以接受请求然后将其转发。- 匿名度 - 高匿
阅读全文
摘要:### 回顾 - requests作用:模拟浏览器发起请求 - urllib:requests的前身 - requests模块的编码流程: - 指定url - 发起请求: - get(url,params,headers) - post(url,data,headers) - 获取响应数据 - 持久
阅读全文
摘要:- Anaconda是一个集成环境(基于机器学习和数据分析的开发环境) - 基于浏览器的一种可视化开发工具:jupyter notebook - 可以在指定目录的终端中录入jupyter notebook指令,然后启动服务。- cell是分为不同模式的: - Code:编写python代码 - ma
阅读全文