新数据处理缺失值结果把所有缺失值都补为0再取舍的结果
总共有440633个特征缺失,数据为109525×72,
暴力删除一些列效果不好,因为有些特征可能有区分性,暴力删除会去掉有区分性的特征,这时候应尽量考虑补全,应该选择有区分性的特征。
去除特定缺失值再补0。
前7列数据缺失值过万了。
缺失值小于10的列共33列距离2.9欧式角37
缺失值小于2600的列数44距离4.2,角度30
缺失值3500 60列距离2.79角度36
8列-44列欧式距离2.9,角度31
1-44列距离2.58欧式角30.3774
5-44列距离2.9角度31.1072
2-44列距离2.7角度31.5282
1-4 8-44列欧式距离2.7717角度30.3607
72列中看了下每行缺失的个数
1-44列每行缺失值个数
把缺失值为24的行去掉欧式距离3.2556,角度30.8543
把缺失值大于11的行数去除欧式距离3.1721角度31.0499。
把缺失值大于10的行数去除欧式距离3.0997角度30.7896。
把缺失值大于9行数去掉距离3.1733角度30.9276
把缺失值大于8的行去掉欧式距离3.1501,角度30.7952
把缺失值大于7的行去掉欧式距离3.3249,角度30.7050
把缺失值大于6的行去掉欧式距离2.9339,角度31.0251
把缺失值大于5的行去掉欧式距离2.8463,角度31.0638
把缺失值大于4的行去掉欧式距离3.2483,角度30.3703
把缺失值大于3的行去掉欧式距离2.6253,角度29.5401
把缺失值大于2的行去掉欧式距离2.6909,角度25.1736
把缺失值大于1的行去掉欧式距离1.8852,角度25.6766
把缺失值大于0的行去掉欧式距离5.0539,角度29.5085