把dataFrame的空字符串的处理和replace函数的用法

import numpy as np

required_input = required_input.replace(np.nan, '')
query_result_input = query_result_input.replace(np.nan, '')

将指定列toy的空值替换成指定值100:
df.replace({'toy':{np.nan:100}})

筛选有缺失值的行
df.loc[df.isna().any(1)]

筛选没有缺失值的行

df.loc[~df.isna().any(1)]

筛选有缺失值的列
df.loc[:,df.isna().any()]

筛选没有缺失值的列
df.loc[:,~df.isna().any()]

把空值置换为待补充
df.fillna("待补充")
把空值置换为0
df.fillna(0)

插值填充,例如excel的下拉填充
df.interpolate()

删除有空值的行
df.dropna()
df.dropna(how='all')

删除B或者D列中有空值的行

ss.dropna(subset=['B','D'],inplace=True)

删除有缺失值的列
df.dropna(1)
df.dropna(axis=1)
df.dropna(axis='columns')

时间数据的缺失值用NaT表示

整型数据的缺失值用NaN表示

缺失值的运算:
加法会把缺失值当作0,忽略缺失值,累加函数cumsum()
df.d.cumsum()
cumsum() 和cumprod()会忽略NA值,但值会保留在序列中

df.D.cumsum(skipna=False) 跳过有缺失值的计算并且返回缺失值

对每一列进行求和:
df.sum()
对每一列进行求个数,忽略空值:
qq = ss.count()
对每一行进行求个数,忽略空值
qq = ss.count(1)

在做聚合分析的时候,如果聚合分组的列里有空值,则会自动忽略这些值,直接不显示:
df.groupby['B'].sum()
如果计算中需要计入有空值的分组,可以将dropna=False传给df.groupby():
df.groupby('B',dropna=False).sum()

ser = pd.Series([0.,1.,2.,3.,4.])
把序列里的0替换为5
ser = ser.replace(0,5)
把序列的0替换为4,1替换为3。。。

ser = ser.replace([0,1,2,3,4],[4,3,2,1,0])
用字典映射对应的值,把0替换为10,把1替换为100
ser = ser.replace({0:10,1:100})
以上针对一个Serries,相当于df的某一列

一下针对于df
把df的a列的0替换为100和df的b列的5替换为100
df = df.replace({'a':0,'b':5},100)
指定列里的替换规则:把a列里的0替换为100,a列里的4替换为400
df.replace({'a':{0:100,4:400}})

找出重复值,按行,重复的全部标志为True
dfj = df5.duplicated(keep=False)

保留重复的最后一个,第一次出现的字符标记为True,例如,1 1,把第一个1出现的标记为True
dfj = df5.duplicated(keep='last')

筛选出重复的内容:
dfj = df[df5.duplicated()]

指定筛选哪列的重复内容:、
df6 = df5.duplicated(subset='B',keep=False)

 

 

 



posted @ 2021-12-15 22:00  ivyJ  阅读(2193)  评论(0编辑  收藏  举报