摘要:
首先,再了解SQLAachemy之前,我们先回顾一下ORM 一、 ORM的回顾 1. 什么是ORM ORM是对象-关系映射(Object Relation Mapping,简称ORM) 对象-关系映射(ORM)系统一般以中间件的形式存在,主要实现程序对象到关系数据库的映射。 简单的来说 Object 阅读全文
摘要:
处理丢失数据 阅读全文
摘要:
Pandas的数据结构 导入pandas: import pandas 1. Series Series是一种类似与一维数组的对象,由下面两个部分组成: values:一组数据(ndarray类型) index:相关的数据索引标签 Series的数据参数: Series(data=None, ind 阅读全文
摘要:
三、ndarray的基本操作下部 5.切分 1. 与级联类似,三个函数完成切分工作: np.split(arr, 行/列号 ,轴):参数2是一个列表类型 np.vsplit 行切分 np.hsplit 列切分 示例: 2.切分照片 结果: 2.1 行切分 结果: 2.2 列切分 结果: 6.副本 所 阅读全文
摘要:
什么是数据分析: - 数据分析就是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律 数据分析三剑客(模块): - Numpy, Pandas, Matplotlib Numpy简介: Numpy (Numerical Python) 是python语言的一个扩展程序库,支 阅读全文
摘要:
什么是定时爬虫: 定时爬虫:使用脚本在指定时间内进行一次数据(最新更新)的爬取. 阅读全文
摘要:
一、增量式爬虫 1.什么是增量式爬虫??? — 通俗的来说,爬取网站中更新的数据,不管是产生新页面,还是原本的页面更新,这种变化都被称为增量, 而爬取过程则被称为增量爬取 2.回顾一下爬虫的工作流程 1. 指定URL,发送URL请求,获取页面数据 2. 获得响应对象 3. 解析对象的内容 4. 储存 阅读全文
摘要:
redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以。原因有二。 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器) 其二:多台机器爬取到的数据无法通过同一个管道对数据 阅读全文
摘要:
CrawlSpider的引入: 提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效) Cra 阅读全文
摘要:
引入: 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获 阅读全文