sklearn one_hot 操作

１.编码

　　one_hot编码不再过多叙述，类似于hash的那种方法去改变数的编码方式。比如label存在与（０，１，２，３），那么一条记录的label为３，那么将编码维[0,0,0,1]

2.包：　tf.one_hot(label,n_label)　需要注意的是返回的是一个tensor

　　　from sklearn.preprocessing import OneHotEncoder

　　这个的用法就比较多了

1 enc = OneHotEncoder()
2 enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1],[1, 0, 2]])
3 print "enc.n_values_ is:",enc.n_values_
4 print "enc.feature_indices_ is:",enc.feature_indices_
5 print enc.transform([[0, 1, 1]]).toarray()

View Code

　这里，我们把以上一行看作是一条记录，那么每一行的第n列就是其第n个特征。基于这个理解，我们说下面的问题。

　　１）其中enc.fit与平时所用的sklearn 的作用相同。

　　２）enc.n_values_－>各个特征的种类

　　其输出：[2 3 4]　可以看到一共４行，３列，也就说４条记录３个特征，那么我们可以看出n_values_是统计各个特征的值

　　３）　feature_indices_　

　　　输出为：[0 2 5 9]也就时说对上面n_values的累加

　　４）　enc.transform(one_array) 这个就不用说了

posted @ 2017-12-17 22:24 不说话的汤姆猫阅读(2515) 评论(0) 编辑收藏举报

刷新页面返回顶部

不说话的汤姆猫

sklearn one_hot 操作

公告