pandas处理大数据题目的操作
1、用法:DataFrame.drop(labels=None, axis=0, index=None, columns=None, inplace=False)#
2、参数说明:#
labels:要删除的行/列的名字,用列表给出#
axis:默认为0,即删除行,删除列时指定为1#
index:直接指定要删除的行#
columns:直接指定要删除的列#
inplace:默认为False,即删除操作不改变元数据,而是返回一个执行删除操作后的新DataFrame,若为True,则会在元数据据上进行删除操作,删除后无法返回#
3、删除行列的两种方式:#
1)labels=None, axis=0/1的组合#
2)index或columns直接指定要删除的行或列#
#
#
1.滤除缺失数据dropna()#
import pandas as pd
import numpy as np
df=pd.DataFrame({"record":[np.nan,"亚健康|潘光|45岁","疾病|张思",np.nan],"date":[np.nan,20210102,20210103,20210104]},index=["one","two","three","four"])
#
1)滤除含有NaN值的所有行
df.dropna()#默认axis=0
#
2)滤除含有NaN值的所有列
df.dropna(axis=1)
#
3)滤除元素都是NaN值的行
df.dropna(axis=0,how="all")#
#
5)滤除指定列中含有缺失的行
df.dropna(subset=["record"],axis=0)#
以上如果需要在原数据上直接做更改,需设置参数inplace=True#
#
2.删除重复值 drop_duplicates()
df=pd.DataFrame({'state':[1,1,2,2,1,2,2],'pop':['a','b','c','d','b','c','d']})#
语法:drop_duplicates(subset,keep,inplace),其中参数 keep:{‘first’,‘last’,False},默认’first’#
first:保留第一次出现的重复项,删除第二次及之后出现的重复项。#
last:保留最后一次出现的重复项,删除之前出现的重复项。#
"false":删除所有重复项。#
1)keep=“first”#
df.drop_duplicates(keep="first")#
2)keep=“last”#
df.drop_duplicates(keep="last")#
3)keep=False#
df.drop_duplicates(keep=False)
#
4)删除指定列中重复项对应的行#
df.drop_duplicates(subset=["state"],keep="first")#
以上如果需要在原数据上直接做更改,需设置参数inplace=True#
#
3.根据指定条件删除行列drop()#
df=pd.DataFrame(np.arange(16).reshape(4,4),columns=["one","two","three","four"])
#
1).删除指定列#
df.drop(["one"],axis=1)
#
-
>>>df.drop(columns=['B', 'C'])
另外,也可通过del df["one"]来实现删除指定列,但该方法不推荐,因为这默认直接在源数据上做更改。#
2).删除指定行#
df.drop([0],axis=0)#
以上如果需要在原数据上直接做更改,需设置参数inplace=True#
————————————————
版权声明:本文为CSDN博主「永远在减肥永远110的的小潘」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/p1306252/article/details/114890550#
作者:keep--fighting
出处:https://www.cnblogs.com/keep--fighting/p/15238370.html
版权:本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· winform 绘制太阳,地球,月球 运作规律
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」
· 写一个简单的SQL生成工具
· Manus的开源复刻OpenManus初探