数据集之转换器以及估计器

数据集的结构:特征值+目标值 (有些可以没有目标值)

数据集:uci kaggle

数据处理工具:pandas sklearn

缺失值 重复值 不需要处理

 

转换器是一类实现了特征工程的API:

 

估计器是一类实现了算法的API:

 

测试代码:

from sklearn.preprocessing import StandardScaler
# 转换器以及估计器
s = StandardScaler()
data = s.fit_transform([[1, 2, 3], [4, 5, 6]])
print(data)

ss = StandardScaler()
print(ss.fit([[1, 2, 3], [4, 5, 6]]))
print(ss.transform([[1, 2, 3], [4, 5, 6]]))

print(ss.fit([[2, 3, 4], [4, 5, 7]]))
print(ss.transform([[1, 2, 3], [4, 5, 6]]))

运行结果:

 

posted @ 2018-12-24 20:49  wydxry  阅读(379)  评论(0编辑  收藏  举报
Live2D