10.11-10.15周总结
数据分析基本概要
数据分析工作流程
1.需求分析
2.数据采集
3.数据清洗
4.数据分析
5.数据报告
5.1.数据可视化
数据分析三剑客:numpy pandas matplotlib
ipython模块:在终端提供一个更加方便的编程环境
jupyter模块:核心功能是notebook,jupyter分析环境
notebook快捷键:
命令行模式(蓝色)与编辑模式(绿色) 命令行模式>>>编辑模式 鼠标左键点击或者直接按enter 编辑模式>>>命令行模式 键盘esc键 ctrl+enter 运行当前单元格 shift+enter 运行当前单元格并切换到下面的单元格(无则新建) 如何编写标题 方式1:编辑模式下先写文本 然后切换到命令行模式按m+数字 方式2:命令行模式下先按m之后按照警号跟文本即可 如何创建单元格 命令行模式下按b键 命令行模式下按a键 任何删除单元格 命令行模式下连续按两下d键 如何撤销删除 命令行模式下按z键
查看提示信息
1.命令后加?
2.shift加tab
numpy模块:
一个用于科学计算的库
numpy数组概念:
一维数组: np.array([1,2,33])
二维数组:np.array([[1,2,30],[1,3,4,5]])
numpy常见属性:
T 转置
ndim 查看数组维数
dtype 查看数据内元素数据类型
shape 查看数据行列数(结果是一个元组)
numpy常见方法:
arange()
zero()
empty()
eyes()
numpy数据类型
1.由于numpy主要只用在科学计算 所以大部分都是数字类型 2.并且为了避免与python中数据类型关键字冲突有些类型后面加了下划线 布尔值 bool_... 整型 int_... 无符号整型 uint... 浮点型 float_... 复数 complex_...
numpy运算符与函数:
greater
greater_equal
less
less_equal
equal
not_equal
square
sqrt
min
max
sum
count
average
var
pandas模块简介:
基于numpy构建 主要用于操作excel表格类相关数据
内部集成了很多功能 并且有两大数据结构Series、DataFrame
数据类型 Series:
基于numpy数组构建 import pandas as pd pd.Series([1,2,3,4]) # 默认行索引就是从0开始的数字 pd.Series([1,2,3,4],index=['a','b','c','d']) # 自定义行标签 pd.Series({'name':'jason','pwd':123}) pd.Series(0,index=['a','b','c','d'])
缺失数据及处理方式:
缺失数据的关键字是NaN 该关键字属于浮点型(float64) isnull() # 缺失数据项展示为True notnull() # 缺失数据项展示为False fillna() # 填充缺失数据(重要) dropna() # 删除缺失数据项
布尔值索引:
| # 或 & # 与
索引取值:
.loc[] # 根据行标签取值 .iloc[] # 根据行索引取值
关于数据修改:
数据在执行一些操作之后如果直接展示了结果则表示原数据没有被修改
数据在执行一些操作之后如果没有展示结果则表示原数据被修改了