Pandas实现按条件删除多行数据
在工作中我们经常会遇到删除某些不符合条件的数据,而且有时候是删除多条,在这里我提供一个简单的操作办法
Question:删除有2个0以上的行(包含2个)
先看下完整代码
# 模拟数据
df = pd.DataFrame({'a':[1,0,2,1,3],'b':[0,2,1,0,1],'c':[0,2,1,0,0],'d':[1,2,0,0,0]})
# 统计数据
sums = (df == 0).astype(int).sum(axis=1)
# 获取符合条件的行索引
sums_result = list(sums[sums>1].index)
# 删除
df = df.drop(sums_result, axis=0)
效果:
分析:
1、我们先读取数据
当然这个数据可以从excel或者其他地方读取
df = pd.DataFrame({'a':[1,0,2,1,3],'b':[0,2,1,0,1],'c':[0,2,1,0,0],'d':[1,2,0,0,0]})
df # 打印df
2、统计每一行包含0的个数
sums = (df == 0).astype(int).sum(axis=1)
sums # 打印sums
从上图我们看到每一行包含的零的个数,这个数据是一个 Series类型的数据。
0、3、4行符合我们的要求,我们需要删除。
3、按要求找到我们要删除的行 的 索引
注意,我们这里统计的是所有的符合条件的行,这样一列我们可以避免使用for循环去删除,就可以一次性去删除符合条件的行
# 这样是返回Series的数据,需要使用下面的转换,我们最终是需要符合条件的集合
sums_result = sums[sums>1]
sums_result # 打印sums_result
注意,这里我们需要将Series转换成 List数据 才行,因为后面drop接口需要接收的是符合条件的缩影
sums_result = list(sums[sums>1].index)
sums_result # 打印sums_result
这里我们可以改变条件,比如删除每行0有2个或者有1个的条件
4、执行删除
df = df.drop(sums_result, axis=0)
df # 打印df
从上图可以看到我们已经删除了了符合条件的行,在这个drop删除函数中,我们传进去的是一个索引列表集合。