1. 两种丢失的数据:
- None
- NaN (np.nan)
2. None
1) None是Python自带的,其类型为python object。None不能参与到任何计算中。
2) None的数据类型: NoneType
3. NaN: np.nan是浮点类型,能参与到计算中。但计算的结果总是NaN。
1) 查看np.nan的数据类型: float
pandas中的None与NaN
1. pandas中None与np.nan都视作np.nan
创建数据:
df = DataFrame(data=np.random.randint(0,100,size=(10,12)))
2. 将某些数组元素赋值为nan
df.iloc[1,1] = None
pandas处理空值操作
3. 删除对应空行
第一种:
1) 空值检测
df.isnull() # 为 True 的值为空
2) 找出索引对应的行
df.isnull().any(axis=1)
3) 找出空值行对应的索引
drop_index = df.loc[df.isnull().any(axis=1)].index
4) 删除担忧空值的行
df.drop(labels=drop_index,axis=0)
第二种:
1) 找出非空的值所在的行, True的值为非空行
df.notnull().all(axis=1)
2) 删除空行 (保留非空行)
df.loc[df.notnull().all(axis=1)]
isnull(): True空值 False非空
notnull(): True非空 False空值
如何检测df中哪些行中存在空行?
df.isnull().any(axis=1): True行中存在空 False行中不存在空
df.notnull().all(axis=1): False行中存在空 True行中不存在空
1. dropna(): 过滤丢失数据
df.dropna(axis=0) # axis默认为行: axis中0表示行,1表示的列
2. fillna(): 填充函数 Series/DataFrame
df.fillna(method='bfill',axis=0, inplace=True)
- pad/ffill # 用前一个非缺失值去填充该缺失值
- backfill/bfill # 用下一个非缺失值填充该缺失值
创建多层列索引
1. 隐式构造
最常见的方法是给DataFrame构造函数的index或者columns参数传递两个或更多的数组
2. 显示构造pd.MultiIndex.from_product()
import pandas as pd
col=pd.MultiIndex.from_product([['qizhong','qimo'],
['chinese','math']])
df = DataFrame(data=np.random.randint(60,120,size=(2,4)),index=['tom','jay'],
columns=col)
pandas的拼接操作
pandas的拼接分为两种:
- 级联:pd.concat, pd.append
- 合并:pd.merge, pd.join
pd.concat()级联
pandas使用pd.concat函数,与np.concatenate函数类似,只是多了一些参数:
- objs
- axis=0
- keys
- join='outer'/'inner':表示的是级联的方式,outer会将所有的项进行级联(忽略匹配和不匹配),而inner只会将匹配的项级联到一起,不匹配的不级联
- ignore_index=False
df1: df2:
A B C A E C
a 86 26 66 a 66 69 24
b 84 33 91 e 66 2 89
c 55 40 31 c 55 45 77
1) 匹配级联
pd.concat((df1,df1),axis=0,join='inner')
A B C
a 86 26 66
b 84 33 91
c 55 40 31
a 86 26 66
b 84 33 91
c 55 40 31
2) 不匹配级联
不匹配指的是级联的维度的索引不一致。例如纵向级联时列索引不一致,横向级联时行索引不一致
有2种连接方式:
- 外连接:补NaN(默认模式)
- 内连接:只连接匹配的项
pd.concat((df1,df2),axis=0,join='outer')
A B C E
a 86 26.0 66 NaN
b 84 33.0 91 NaN
c 55 40.0 31 NaN
a 66 NaN 24 69.0
e 66 NaN 89 2.0
c 55 NaN 77 45.0
3) 使用df.append()函数添加
df1.append(df2)
pd.merge()合并
1. merge与concat的区别在于,merge需要依据某一共同的列来进行合并
2. 使用pd.merge()合并时,会自动根据两者相同column名称的那一列,作为key来进行合并。
3. 注意每一列元素的顺序不要求一致
4. 参数:
- left # 参与合并的左侧DataFrame
- right # 参与合并的右侧DataFrame
- how # out取并集、inner取交集、left、right
- on # 当有多列相同的时候,可以使用on来指定使用那一列进行合并,on的值为一个列表
- left_on/right_on # 左侧/右侧 DataFarme中用作连接键的列, 指定字段
- left_index/right_index # 将左侧/右侧 的行索引用作其连接键, 默认为False
数据:
df1: df2:
employee group employee hire_date
0 Bob Accounting 0 Lisa 2004
1 Jake Engineering 1 Bob 2008
2 Lisa Engineering 2 Jake 2012
1. 一对一合并
pd.merge(df1,df2,how='outer')
# 结果:
employee group hire_date
0 Bob Accounting 2008
1 Jake Engineering 2012
2 Lisa Engineering 2004
2. 多对一合并
df3 = DataFrame({
'employee':['Lisa','Jake'],
'group':['Accounting','Engineering'],
'hire_date':[2004,2016]})
df4 = DataFrame({'group':['Accounting','Engineering','Engineering'],
'supervisor':['Carly','Guido','Steve']
})
pd.merge(df3,df4,how='outer')
# 结果:
employee group hire_date supervisor
0 Lisa Accounting 2004 Carly
1 Jake Engineering 2016 Guido
2 Jake Engineering 2016 Steve
3. 多对多合并
pd.merge(df1,df5,how='left')
# 结果:
employee group supervisor
0 Bob Accounting NaN
1 Jake Engineering Carly
2 Jake Engineering Guido
3 Lisa Engineering Carly
4 Lisa Engineering Guido
1. key的规范化
当列冲突时,即有多个列名称相同时,需要使用on=来指定哪一个列作为key,配合suffixes指定冲突列名
# 数据:
employee group
0 Jack Accounting
1 Summer Finance
2 Steve Marketing
employee group hire_date
0 Jack Accounting 2003
1 Bob sell 2009
2 Jake ceo 2012
pd.merge(df1,df2,how='outer',on='group')
# 结果:
employee_x group employee_y hire_date
0 Jack Accounting Jack 2003.0
1 Summer Finance NaN NaN
2 Steve Marketing NaN NaN
3 NaN sell Bob 2009.0
4 NaN ceo Jake 2012.0
2. 当两张表没有可进行连接的列时,使用left_on和right_on指定merge中左右两边的哪一列作为连接的列
# 数据:
employee group hire_date
0 Bobs Accounting 1998
1 Linda Product 2017
2 Bill Marketing 2018
hire_dates name
0 1998 Lisa
1 2016 Bobs
2 2007 Bill
pd.merge(df1,df5,left_on='employee',right_on='name')
# 结果:
employee group hire_date hire_dates name
0 Bobs Accounting 1998 2016 Bobs
1 Bill Marketing 2018 2007 Bill