数据清洗过程
将列名拿出来,去除列名内部的空格
采用列表表达式去除列明里面的空格
在联系的过程中突然发现python使用printf函数打印结果的话,假设你前面定义了一个a=5然后你又让a=5+6或者其他操作,在进行打印a它的结果仍然是5 除非打印的式子编程print(a+6)不理解(没认真学过python语法)
将去除空格的结果赋值给df.colums
去除重复值 df.duplicated()函数 函数返回bool型数据默认从前往后查找,如果数据有重复则后面显示true
告诉重复值的位置:
从前向后查找:第一行数据,第二行数据和第一行一样那么第二行数据标位true ,
从后向前:就是吧第一行数据当做重复值
#打印出重复值 print(df[df.duplicated()]) #查看重复值有多少条(false是0 true是1) print(df.duplicated().sum())
删除重复值:需要注意的是python试讲文件读取进来存在另一个地方,增我们的编程操作完成之后进行导出文件,心得文件上面会有我们做的一系列操作it啊并不能把手神刀起始文件里面去
#需要注意的是动了原数据,就要改变一下索引 print(df.shape[0]) #结果是54 print(range(df.shape[0])) #(0,54) df.index = range(df.shape[0]) print(df.index) #RangeIndex(start=0, stop=54, step=1) # 起始 终止 步长