数据分析基础与Numpy

概述

Jupyternotebook基本操作

  • 启动:终端jupyter notebook
  • 在源文件中添加cell:
  • 模式1:code
  • python代码的编写和运行
  • 模式2:md
  • 编写相关的文档注释
  • 快捷键:
    • 添加cell:a,b
    • 删除cell:x
    • 运行cell:shift+enter
    • 进入编辑模式:选中cell双击
    • 切换cell的模式:m,y
    • 打开帮助文档:shift+tab

数据分析

  • 把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律。
  • 常用工具
    • numpy:重点用于数值型数据
    • pandas:重点用于重点用于数值型数据数据
    • Matplotlib:绘图库

Numpy模块

1.numpy的创建

1)使用np.array()创建

  • 创建一维数组

  • 创建多维数组

2)使用plt创建

  • 读当前目录下图片

  • 显示图片

  • 对图片每个像素值进行修改

3)使用np的routines函数创建

  • np.ones创建全1

  • np.linspace、np.arrange创建等差数列

  • np.random.randint/random创建随机数序列

2.numpy的常用属性

  • shape

  • ndim

  • size

  • dtype

  • array(dtype=?):可以设定数据类型
  • arr.dtype = '?':可以修改数据类型

3.numpy的索引和切片

1)索引

首先,创建一个随机二维矩阵

通过索引,可以实现取单行、多行、单个元素的操作:

2)切片

​ 对于一个随机数表,

  • 切出前两列数据

  • 切出前两行数据

  • 切出前两行的前两列的数据

  • 数组数据翻转

![](img src="../Library/Application Support/typora-user-images/image-20220121104849700.png" alt="image-20220121104849700" style="zoom:50%;" /)

  • 将图片上下左右进行翻转操作

  • 将图片进行指定区域的裁剪

4.numpy其他操作

1)reshape变形

2)concatenate级联

  • 将多个numpy数组进行横向或者纵向的拼接

  • axis轴向的理解

    • 0:列
    • 1:行

3)常用聚合操作:sum、min、max、mean

4)常用数统函数常用的统计函数

  • numpy.amin() 和 numpy.amax(),用于计算数组中的元素沿指定轴的最小、最大值。
  • numpy.ptp():计算数组中元素最大值与最小值的差(最大值 - 最小值)。
  • numpy.median() 函数用于计算数组 a 中元素的中位数(中值)
  • 标准差std():标准差是一组数据平均值分散程度的一种度量。
    • 公式:std = sqrt(mean((x - x.mean())**2))
    • 如果数组是 [1,2,3,4],则其平均值为 2.5。 因此,差的平方是 [2.25,0.25,0.25,2.25],并且其平均值的平方根除以 4,即 sqrt(5/4) ,结果为 1.1180339887498949。
  • 方差var():统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数,即 mean((x - x.mean())** 2)。换句话说,标准差是方差的平方根。

5)常用矩阵操作

  • 创建

  • 转置

  • 矩阵乘法

posted @ 2022-01-21 13:09  夜明_Yoake  阅读(53)  评论(0编辑  收藏  举报