除了删除空值,还有一种处理空值的方法是填充(Imputation)。
让我们看看在revenue_millions
列中填充缺失的值。
首先,将该列提取到变量中:
revenue = movies_df['revenue_millions']
使用DataFrame['列名']
可以获取1列数据,即一个Series
。
可以使用head
查看前面几个数据:
revenue.head()
输出
Title Guardians of the Galaxy 333.13 Prometheus 126.46 Split 138.12 Sing 270.32 Suicide Squad 325.02 Name: revenue_millions, dtype: float64
Series与DataFrame格式略有不同,但仍然有标题索引。
填充空值,不能乱填,我们将使用列内的均值来填充。这平均值:
revenue_mean = revenue.mean()
revenue_mean
输出
82.95637614678898
取均值,用fillna()
方法填充空值:
revenue.fillna(revenue_mean, inplace=True)
现在,用列的均值替换了所有的收益为null的项。注意,通过使用inplace=True
,修改了原数据movies_df:
movies_df.isnull().sum()
输出
rank 0 genre 0 description 0 director 0 actors 0 year 0 runtime 0 rating 0 votes 0 revenue_millions 0 metascore 64 dtype: int64
我们使用了整列均值来填充空值,还可以使用同个导演作品的均值、同类型电影的均值等等。
本文来自博客园,作者:大码王,转载请注明原文链接:https://www.cnblogs.com/huanghanyu/
分类:
人工智能之机器学习
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具