数据预处理
- 数据写入:
os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file1= os.path.join('..', 'data', 'animals.csv')
with open(data_file1,'w',encoding='utf8') as f: #open文件名参数不要打引号
f.write('动物,年龄,特点,sex\n')
f.write('马,4,跑的快,NA\n')
f.write('猪,5,喜欢吃,NA\n')
data1= pd.read_csv(data_file1)
data1
- 列(特征)标签获取:
aa=data1.columns
aa[1],aa
('年龄', Index(['动物', '年龄', '特点', 'sex'], dtype='object'))
- 缺失值分析:
- 各变量基本非缺失样本统计:
data1.info()
- 具体每一个变量非缺失样本统计:
data1['动物'].isna().sum()
- 查看各个变量具体缺失:
data1.isna().sum()
- 删除列变量:
data2=data1.drop(label,axis=1) #axis=1,按列删除
- 删除多个变量举例:
data2=data1.drop(data1[['sex','特点']],axis=1)
- 删除一个变量举例:
data3=data1.drop('特点',axis=1)
- dataframe转化为tensor:
- 分类变量编码:
data3 = pd.get_dummies(data3, dummy_na=True)
print(data3)
#整体一个data3一起进行,而不需要把分类变量编码出来再进行编码
- 转化为张量:
y = torch.tensor(data3.values)
y
``
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY