数据预处理

  1. 数据写入:
    os.makedirs(os.path.join('..', 'data'), exist_ok=True)
    data_file1= os.path.join('..', 'data', 'animals.csv')
    with open(data_file1,'w',encoding='utf8') as f: #open文件名参数不要打引号
    f.write('动物,年龄,特点,sex\n')
    f.write('马,4,跑的快,NA\n')
    f.write('猪,5,喜欢吃,NA\n')
    data1= pd.read_csv(data_file1)
    data1

  1. 列(特征)标签获取:
    aa=data1.columns
    aa[1],aa

('年龄', Index(['动物', '年龄', '特点', 'sex'], dtype='object'))

  1. 缺失值分析:
  • 各变量基本非缺失样本统计:data1.info()
  • 具体每一个变量非缺失样本统计:data1['动物'].isna().sum()
  • 查看各个变量具体缺失:data1.isna().sum()
  1. 删除列变量:data2=data1.drop(label,axis=1) #axis=1,按列删除
  • 删除多个变量举例:data2=data1.drop(data1[['sex','特点']],axis=1)
  • 删除一个变量举例:data3=data1.drop('特点',axis=1)
  1. dataframe转化为tensor:
  • 分类变量编码:
    data3 = pd.get_dummies(data3, dummy_na=True)
    print(data3)
    #整体一个data3一起进行,而不需要把分类变量编码出来再进行编码
  • 转化为张量:
    y = torch.tensor(data3.values)
    y
    ``
posted @ 2022-01-30 19:18  Monster1728  阅读(112)  评论(0编辑  收藏  举报