摘要:
python 基础 基础【一】基础数据类型 基础【二】while循环及基本运算符 基础【三】字符串的操作方法 基础【四】列表的操作方法 基础【五】字典的操作方法 基础【六】集合基本操作 基础【七】小数据池 基础【八】编码进阶及文件操作 基础【九】进制转换 函数 函数【一】定义/调用函数 函数【二】嵌 阅读全文
摘要:
数据分析案例-拉勾网招聘信息 1、导入模块配置中文 import pandas as pd import numpy as np from matplotlib import pyplot as plt # 支持中文 plt.rcParams['font.sans-serif'] = ['SimHe 阅读全文
摘要:
pandas入门之DataFrame 创建DataFrame - DataFrame是一个【表格型】的数据结构。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引,也有列索引。 - 创建DataFrame的方式 - 列表 阅读全文
摘要:
pandas入门之Series 一、创建Series 参数 - Series (Series)是能够保存任何类型的数据(整数,字符串,浮点数,Python对象等)的一维标记数组。轴标签统称为索引。 - data 参数 - index 索引 索引值必须是唯一的和散列的,与数据的长度相同。 默认np.a 阅读全文
摘要:
数据分析之matplotlib使用 绘制折线图 参数详情 from matplotlib import pyplot as plt # 设置图片大小,dpi图片放大缩小时可以让其更清晰 plt.figure(figsize=(20,8),dpi=80) x = range(2,26,2) y = [ 阅读全文
摘要:
数据分析之numpy使用 使用numpy生成数字 生成的类型是ndarray类型 t1 = np.array([1,2,3,4,5]) print(t1,type(t1)) # 类型为ndarray t2 = np.array(range(10)) print(t2) t3 = np.arange( 阅读全文
摘要:
Scrapy爬虫的暂停和启动 scrapy的每一个爬虫,暂停时可以记录暂停状态以及爬取了哪些url,重启时可以从暂停状态开始爬取过的URL不在爬取 实现暂停与重启记录状态 方法一: 1、首先cd进入到scrapy项目里(当然你也可以通过编写脚本Python文件直接在pycharm中运行) 2、在sc 阅读全文
摘要:
scrapy框架自定制命令 写好自己的爬虫项目之后,可以自己定制爬虫运行的命令。 一、单爬虫 在项目的根目录下新建一个py文件,如命名为start.py,写入如下代码: from scrapy.cmdline import execute if __name__ == "__main__": exe 阅读全文
摘要:
scrapy框架之log日志 scrapy中的debug信息 在scrapy中设置log 1、在settings中设置log级别,在settings.py中添加一行: Scrapy提供5层logging级别: CRITICAL - 严重错误(critical) ERROR - 一般错误(regula 阅读全文
摘要:
scrapy框架之下载中间件 介绍 中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫。 “中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。它们做的事情确实也非常相似。中间件和中间人都能在中途劫持数 阅读全文