222wan

导航

数据清洗过程

 

将列名拿出来,去除列名内部的空格

 采用列表表达式去除列明里面的空格

 在联系的过程中突然发现python使用printf函数打印结果的话,假设你前面定义了一个a=5然后你又让a=5+6或者其他操作,在进行打印a它的结果仍然是5 除非打印的式子编程print(a+6)不理解(没认真学过python语法)

 

将去除空格的结果赋值给df.colums

 

去除重复值 df.duplicated()函数 函数返回bool型数据默认从前往后查找,如果数据有重复则后面显示true

 告诉重复值的位置:

从前向后查找:第一行数据,第二行数据和第一行一样那么第二行数据标位true ,

从后向前:就是吧第一行数据当做重复值

 

                               
#打印出重复值                        
                               
print(df[df.duplicated()])     
                               
#查看重复值有多少条(false是0 true是1)     
                               
print(df.duplicated().sum())   

  

 

删除重复值:需要注意的是python试讲文件读取进来存在另一个地方,增我们的编程操作完成之后进行导出文件,心得文件上面会有我们做的一系列操作it啊并不能把手神刀起始文件里面去

#需要注意的是动了原数据,就要改变一下索引                                   
                                                        
print(df.shape[0])   #结果是54                             
                                                        
print(range(df.shape[0]))  #(0,54)                      
                                                        
df.index = range(df.shape[0])                           
                                                        
print(df.index)   #RangeIndex(start=0, stop=54, step=1) 
                  #         起始       终止      步长         

  

 

posted on 2024-03-09 22:12  角落的蘑菇  阅读(7)  评论(0编辑  收藏  举报