数据分析三剑客之pandas
导入:
import pandas as pd from pandas import Series from pandas import DataFrame import numpy as np
一、Series对象
一种类似于一维数组的对象,由values和index组成
1、创建Series
方式1:由列表或numpy数组创建
Series(data=[1,2,3])/Series( data=np.random.random(size=(10,) )
方式2:由字典创建
dic = { "math":100, "chinese":150, }
Series(data=dic)
2、索引和切片
可以使用中括号取单个索引的值(此时返回的是元素),或者中括号里一个列表取多个索引的值(此时返回的是一个Series类型)。
(1) 显式索引:
- 使用index中的元素作为索引值
- 使用s.loc[](推荐):注意,loc中括号中放置的一定是显示索引
注意,此时是闭区间
(2) 隐式索引:
- 使用整数作为索引值
- 使用.iloc[](推荐):iloc中的中括号中必须放置隐式索引
注意,此时是半开区间
3、Series的属性
shape 形状
size 大小
index 索引
values 值
4、常用操作
(1)查看前n个值 s.head(n)
(2)查看后n个值 s.tail(n)
(3)去重 s.unique()
(4)相加 将索引相互对应,当对应的索引不同时,用NaN补
(5) 检测缺失值
pd.isnull() 或 pd.notnull()
s.isnull() 或 pd.notnull()
5、运算
+ 或 add()
- 或 sub()
* 或 mul()
/ 或 div()
运算规则:在运算中自动对齐不同索引的数据,如果索引不对应,则补NaN
二、DataFrame对象
是一个表格型的数据结构,既有行索引,也有列索引
1、DataFrame的创建
方式1:由字典创建,键为列索引,值为行索引
DataFrame(data=dic,index=[...])
方式2:由ndarray创建
DataFrame(data=np.random.randint(0,100),size=(3,3),index=[ "a", "b", "c" ], columns=[ "A", "B", "C" ]
2、DataFrame的属性
shape 形状
values 值
index 行索引
columns 列索引
3、索引
(1) 对列进行索引
- 通过类似字典的方式 df['q']
- 通过属性的方式 df.q
可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引,且name属性也已经设置好了,就是相应的列名。
(2) 对行进行索引
- 使用.loc[]加index来进行行索引
- 使用.iloc[]加整数来进行行索引
同样返回一个Series,index为原来的columns。
(3) 对元素索引的方法
- 使用列索引
- 使用行索引(iloc[3,1] or loc['C','q']) 行索引在前,列索引在后
4、切片
直接用中括号时:
- 索引表示的是列索引
- 切片表示的是行切片
在loc和iloc中使用切片(切列) : df.loc['B':'C','丙':'丁']
5、DataFrame的运算
同Series一样,在运算中自动对齐不同索引的数据,如果索引不对应,补NaN。
6、处理丢失数据
---补充---
有两种丢失数据:
- None
- np.nan(NaN)
None是Python自带的,其类型为python object。因此,None不能参与到任何计算中。
np.nan是浮点类型,能参与到计算中。但计算的结果总是NaN。
------------
pandas中None和np.nan都视为np.nan
pandas处理空值操作:
isnull() 常与any()搭配
notnull() 常与all()搭配
drop(label=n,axis=0)
: 过滤丢失数据 (可以选择过滤行还是列,0表示行,1表示列)dropna(axis=0)
: 过滤丢失数据 (可以选择过滤行还是列,0表示行,1表示列)fillna()
: 填充丢失数据 (values: 以什么值填充 ,method: 填充方法 前向填充ffill还是后向填充bfill ,axis=1:行方向)