摘要: 学习sklearn和kagggle时遇到的问题,什么是独热编码?为什么要用独热编码?什么情况下可以用独热编码?以及和其他几种编码方式的区别。 首先了解机器学习中的特征类别:连续型特征和离散型特征 拿到获取的原始特征,必须对每一特征分别进行归一化,比如,特征A的取值范围是[-1000,1000],特征 阅读全文
posted @ 2017-11-16 21:00 三年一梦 阅读(41507) 评论(10) 推荐(5) 编辑
摘要: box-cox 由于线性回归是基于正态分布的前提假设,所以对其进行统计分析时,需经过数据的转换,使得数据符合正态分布。 Box 和 Cox在1964年提出的Box-Cox变换可使线性回归模型满足线性性、独立性、方差齐性以及正态性的同时,又不丢失信息。 Box-Cox变换是统计建模中常用的一种数据变换 阅读全文
posted @ 2017-11-16 12:05 三年一梦 阅读(13436) 评论(0) 推荐(1) 编辑