1.12

python进行数据清洗的知识点(一)

数据清洗常用工具

目前在Python中, numpy和pandas是最主流的工具
Numpy中的向量化运算使得数据处理变得高效
Pandas提供了大量数据清洗的高效方法
在Python中,尽可能多的使用numpy和pandas中的函数,提高数据清洗的效率
1.1 Numpy
Numpy常用数据结构
Numpy中常用的数据结构是ndarray格式
使用array函数创建,语法格式为array(列表或元组)
可以使用其他函数例如arange、linspace、zeros等创建


Numpy常用方法
ndim: 返回int,表示ndarray的维度
shape:返回尺寸,几行几列
size:返回数组元素的个数
dtype:返回数组中元素的类型
运算:直接可以在每个元素加减乘除


数组访问方法


Numpy常用数据清洗函数
排序函数
• sort函数: 从小到大进行排序
• argsort函数: 返回的是数据中从小到大的索引值
数据的搜索
• np.where: 可以自定义返回满足条件的情况
• np.extract: 返回满足条件的元素值


1.2 Pandas
Pandas常用数据结构series和方法
通过pandas.Series来创建Series数据结构。
pandas.Series(data,index,dtype,name)。
上述参数中,data可以为列表,array或者dict。
上述参数中, index表示索引,必须与数据同长度,name代表对象的名称


Pandas常用数据结构dataframe和方法
通过pandas.DataFrame来创建DataFrame数据结构。
pandas. DataFrame(data,index,dtype,columns)。
上述参数中,data可以为列表,array或者dict。
上述参数中, index表示行索引, columns代表列名或者列标签


series和dataframe常用方法
values 返回对象所有元素的值
index 返回行索引
dtypes 返回索引
shape 返回对象数据形状
ndim 返回对象的维度
size 返回对象的个数
columns 返回列标签(只针对dataframe数据结构)

posted @   布吉岛???  阅读(13)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· DeepSeek在M芯片Mac上本地化部署
点击右上角即可分享
微信分享提示