数据分析基础与Numpy
概述
Jupyternotebook基本操作
- 启动:终端jupyter notebook
- 在源文件中添加cell:
- 模式1:code
- python代码的编写和运行
- 模式2:md
- 编写相关的文档注释
- 快捷键:
- 添加cell:a,b
- 删除cell:x
- 运行cell:shift+enter
- 进入编辑模式:选中cell双击
- 切换cell的模式:m,y
- 打开帮助文档:shift+tab
数据分析
- 把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律。
- 常用工具
- numpy:重点用于数值型数据
- pandas:重点用于重点用于数值型数据数据
- Matplotlib:绘图库
Numpy模块
1.numpy的创建
1)使用np.array()创建
-
创建一维数组
-
创建多维数组
2)使用plt创建
- 读当前目录下图片
- 显示图片
- 对图片每个像素值进行修改
3)使用np的routines函数创建
- np.ones创建全1
- np.linspace、np.arrange创建等差数列
- np.random.randint/random创建随机数序列
2.numpy的常用属性
- shape
- ndim
- size
- dtype
- array(dtype=?):可以设定数据类型
- arr.dtype = '?':可以修改数据类型
3.numpy的索引和切片
1)索引
首先,创建一个随机二维矩阵
通过索引,可以实现取单行、多行、单个元素的操作:
2)切片
对于一个随机数表,
- 切出前两列数据
- 切出前两行数据
- 切出前两行的前两列的数据
- 数组数据翻转
![](img src="../Library/Application Support/typora-user-images/image-20220121104849700.png" alt="image-20220121104849700" style="zoom:50%;" /)
- 将图片上下左右进行翻转操作
- 将图片进行指定区域的裁剪
4.numpy其他操作
1)reshape变形
2)concatenate级联
-
将多个numpy数组进行横向或者纵向的拼接
-
axis轴向的理解
- 0:列
- 1:行
3)常用聚合操作:sum、min、max、mean
4)常用数统函数常用的统计函数
- numpy.amin() 和 numpy.amax(),用于计算数组中的元素沿指定轴的最小、最大值。
- numpy.ptp():计算数组中元素最大值与最小值的差(最大值 - 最小值)。
- numpy.median() 函数用于计算数组 a 中元素的中位数(中值)
- 标准差std():标准差是一组数据平均值分散程度的一种度量。
- 公式:std = sqrt(mean((x - x.mean())**2))
- 如果数组是 [1,2,3,4],则其平均值为 2.5。 因此,差的平方是 [2.25,0.25,0.25,2.25],并且其平均值的平方根除以 4,即 sqrt(5/4) ,结果为 1.1180339887498949。
- 方差var():统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数,即 mean((x - x.mean())** 2)。换句话说,标准差是方差的平方根。
5)常用矩阵操作
- 创建
- 转置
- 矩阵乘法