pandas
1.pandas数据读取和预处理
简述:pandas在numpy的基础上又封装了一些操作,相当于把函数做了一些简化。pandas不做可视化,主要是在预处理方面。
文件读取
pandas.read_csv('文件名') 其中文件要以逗号为分隔符 对象.head(3) 查看表/文件的前3行,正向取 对象.tail(3) 看后三行,从后往前数。 对象.columns 列 的名字 ,如 表头 对象.loc[0] 拿第一行数据, 如:[3:6],4到6行数据,[2,5,6]拿2,5,6号数据 对象['列名'] 拿到这一列的数据 对象['列名1',‘列名2’] 拿两列
numpy的数据格式为ndarray, pandas为DataFrame(数据流)
pandas的dtype: int,float,object
2.预处理 (+ — * /)
对象['列名']/100 这一列的数据都除以100,其他同理 对象.sort_values('列名') 按这一列的数据大小排序 pandas.isnull(age) age为一行/列的数据列表,查看是否有空数据 对象['Age'].mean() 求均值 对象.dropna(axios=0,subset=['Age','Sex']) 去掉Age,Sex这一列 对象.apply(value) 写一个自定义函数,return给f函数,value就是这个函数 (def value(): xxxxxx return xxxxx)
3.Pandas-Series结构
Series(collection of values)
DataFrame(collection of Series objects)
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 深入理解 Mybatis 分库分表执行原理
· 如何打造一个高并发系统?
· .NET Core GC压缩(compact_phase)底层原理浅谈
· 现代计算机视觉入门之:什么是图片特征编码
· .NET 9 new features-C#13新的锁类型和语义
· Sdcb Chats 技术博客:数据库 ID 选型的曲折之路 - 从 Guid 到自增 ID,再到
· 语音处理 开源项目 EchoSharp
· 《HelloGitHub》第 106 期
· Spring AI + Ollama 实现 deepseek-r1 的API服务和调用
· 使用 Dify + LLM 构建精确任务处理应用