python数据预处理
缺失值处理
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 | import pandas as pda import numpy as npy import matplotlib.pylab as pyl # data=pda.read_excel("D:/taobao2.xls") def index(data): data = pda.DataFrame(data[ 1 :],columns = data[ 0 ]) print (data) data[ "价格" ][(data[ "价格" ] = = 0 )] = None print (data) x = 0 for i in data.columns: for j in range ( len (data)): if (data[i].isnull())[j]: data[i][j] = data[ "价格" ].mean() x + = 1 print (x) if __name__ = = "__main__" : data = nosupervision_read_data() index(data) |
数据离散化处理
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 | #离散化 #连续型数据离散化 #等宽离散化 import pandas as pda import numpy as npy import matplotlib.pylab as pyl # data=pda.read_excel("D:/taobao2.xls") def index(data): data = pda.DataFrame(data[ 1 :], columns = data[ 0 ]) da = data.values price = da[:, 2 ] price.sort() print (price) k = 5 c1 = pda.cut(price,k,labels = [ "太便宜" , "便宜" , "适中" , "贵" , "太贵" ]) print (c1) #指点区间离散化 k = [ 0 , 50 , 100 ,price. max ()] print (k) c2 = pda.cut(price,k,labels = [ "非常便宜" , "适中" , "贵" ]) print (c2) if __name__ = = "__main__" : data = nosupervision_read_data() index(data) |
数据集成处理
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 | # -*- coding:utf-8 -*- # 异常值处理 import pandas as pda import numpy as npy def index(data): # 输出结果必须为字典output output = {} # data = pda.read_excel("D:/taobao2.xls") data = pda.DataFrame(data[ 1 :], columns = data[ 0 ]) # print(data) da = data.values # 数据集成 da1 = da[ 0 : 10 ] da2 = da[ 10 : 20 ] da3 = npy.concatenate((da1, da2)) pda.DataFrame(da3) output[ 'data_数据集成' ] = pda.DataFrame(da3).values.tolist() print (pda.DataFrame(da1)) print (pda.DataFrame(da2)) print (pda.DataFrame(da3)) print (output) return output if __name__ = = "__main__" : data = nosupervision_read_data() index(data) |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何调试 malloc 的底层源码
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· Apifox不支持离线,Apipost可以!
· 零经验选手,Compose 一天开发一款小游戏!
· 历时 8 年,我冲上开源榜前 8 了!
· Trae 开发工具与使用技巧
· 通过 API 将Deepseek响应流式内容输出到前端