摘要:
数据分析案例-拉勾网招聘信息 1、导入模块配置中文 import pandas as pd import numpy as np from matplotlib import pyplot as plt # 支持中文 plt.rcParams['font.sans-serif'] = ['SimHe 阅读全文
摘要:
pandas入门之DataFrame 创建DataFrame - DataFrame是一个【表格型】的数据结构。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引,也有列索引。 - 创建DataFrame的方式 - 列表 阅读全文
摘要:
pandas入门之Series 一、创建Series 参数 - Series (Series)是能够保存任何类型的数据(整数,字符串,浮点数,Python对象等)的一维标记数组。轴标签统称为索引。 - data 参数 - index 索引 索引值必须是唯一的和散列的,与数据的长度相同。 默认np.a 阅读全文
摘要:
数据分析之numpy使用 使用numpy生成数字 生成的类型是ndarray类型 t1 = np.array([1,2,3,4,5]) print(t1,type(t1)) # 类型为ndarray t2 = np.array(range(10)) print(t2) t3 = np.arange( 阅读全文
摘要:
数据分析之matplotlib使用 绘制折线图 参数详情 from matplotlib import pyplot as plt # 设置图片大小,dpi图片放大缩小时可以让其更清晰 plt.figure(figsize=(20,8),dpi=80) x = range(2,26,2) y = [ 阅读全文
摘要:
Scrapy爬虫的暂停和启动 scrapy的每一个爬虫,暂停时可以记录暂停状态以及爬取了哪些url,重启时可以从暂停状态开始爬取过的URL不在爬取 实现暂停与重启记录状态 方法一: 1、首先cd进入到scrapy项目里(当然你也可以通过编写脚本Python文件直接在pycharm中运行) 2、在sc 阅读全文
摘要:
scrapy框架自定制命令 写好自己的爬虫项目之后,可以自己定制爬虫运行的命令。 一、单爬虫 在项目的根目录下新建一个py文件,如命名为start.py,写入如下代码: from scrapy.cmdline import execute if __name__ == "__main__": exe 阅读全文
摘要:
scrapy框架之下载中间件 介绍 中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫。 “中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。它们做的事情确实也非常相似。中间件和中间人都能在中途劫持数 阅读全文
摘要:
scrapy框架之log日志 scrapy中的debug信息 在scrapy中设置log 1、在settings中设置log级别,在settings.py中添加一行: Scrapy提供5层logging级别: CRITICAL - 严重错误(critical) ERROR - 一般错误(regula 阅读全文
摘要:
scrapy框架之Selectors选择器 Selectors(选择器) 当您抓取网页时,您需要执行的最常见任务是从HTML源中提取数据。有几个库可以实现这一点: BeautifulSoup是Python程序员中非常流行的网络抓取库,它基于HTML代码的结构构建一个Python对象,并且处理相当糟糕 阅读全文
摘要:
scrapy框架之items项目 Items 主要目标是从非结构化来源(通常是网页)提取结构化数据。Scrapy爬虫可以将提取的数据作为Python语句返回。虽然方便和熟悉,Python dicts缺乏结构:很容易在字段名称中输入错误或返回不一致的数据,特别是在与许多爬虫的大项目。 要定义公共输出数 阅读全文
摘要:
scrapy框架之spider 爬取流程 Spider类定义如何爬取指定的一个或多个网站,包括是否要跟进网页里的链接和如何提取网页内容中的数据。 爬取的过程是类似以下步骤的循环: 1.通过指定的初始URL初始化Request,并指定回调函数。当Request下载完后,生成Response作为参数传给 阅读全文
摘要:
scrapy框架之shell scrapy shell scrapy shell是一个交互式shell,您可以在其中快速调试 scrape 代码,而不必运行spider。它本来是用来测试数据提取代码的,但实际上您可以使用它来测试任何类型的代码,因为它也是一个常规的Python shell。 shel 阅读全文
摘要:
scrapy框架之进阶 五大核心组件 - 引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心) - 调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下 阅读全文
摘要:
scrapy框架之基础 一、安装scrapy 安装失败看博客>>>scrapy安装失败解决方案 pip install wheel pip install twisted pip install pywin32 pip install scrapy 二、创建爬虫项目 scrapy startproj 阅读全文
摘要:
爬虫之获取猫眼电影10W评论 第一步 打开一个电影的评论界面: 哪吒之魔童降世:https://maoyan.com/films/1211270 我们发现这里只显示10条评论,而我们需要爬取10w条数据,所以不能从此页面进行抓包,所以放弃!!!! 于是又上网查,终于看到一篇文章说到开发者模式可以直接 阅读全文
摘要:
动态字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的。 现在貌似不少网站都有采用这种反爬机制,我们通过猫眼的实际情况来解释一下。 下图的是猫眼网页上的显示: 检查元素 阅读全文
摘要:
破解字体加密 获取用户的url 找到目标用户 查看我们要获取的信息 检查网页源代码 发现该网站的字体是自定义的,我们在爬取时需要获取它的字体文件,根据它的编码格式进行解码; 通过http://fontstore.baidu.com/static/editor/index.html查看下载的字体文件, 阅读全文
摘要:
分析流程 有道翻译:http://fanyi.youdao.com/ 确定网页加载方式 找到真实的url地址 请求接口和请求参数中携带的sign 寻找sign的加密方式 复制sign全网页搜索这个变量 格式化后的HTML代码 找到sign 分析加密得请求参数是怎么生成得 浏览器版本号 # -*- c 阅读全文
摘要:
协程 任务对象绑定回调 多任务异步协程 多任务异步爬虫 aiohttp使用 案列 阅读全文