摘要: 1. 数据缺失分为两种:行记录缺失,列记录缺失。 2. 不同的数据存储和环境对缺失值的表示也不同。例如:数据库中是Null,Python是None,Pandas或Numpy是NaN。 3. 对缺失值的处理通常4种方法: (1). 丢弃 下面两种场景不宜采用该方法: 不完整数据比例较大,超过10% 缺 阅读全文
posted @ 2018-04-18 16:48 做梦当财神 阅读(1027) 评论(0) 推荐(0) 编辑
摘要: 1. fit_transform是fit和transform的组合。 2. fit(x,y)传两个参数的是有监督学习的算法,fit(x)传一个参数的是无监督学习的算法,比如降维、特征提取、标准化。 3. fit和transform没有任何关系,之所以出来这么个函数名,仅仅是为了写代码方便,所以会发现 阅读全文
posted @ 2018-04-18 15:24 做梦当财神 阅读(14548) 评论(1) 推荐(3) 编辑