摘要: 本文主要介绍两个类的基本使用,CountVectorizer与TfidfVectorizer,这两个类都是特征数值计算的常见方法。对于每一个训练文本,CountVectorizer只考虑每种词汇在该训练文本中出现的频率,而TfidfVectorizer除了考量某一词汇在当前训练文本中出现的频率之外, 阅读全文
posted @ 2018-09-11 16:58 嘻嘻521 阅读(1729) 评论(0) 推荐(0) 编辑
摘要: 什么是one-hot编码?one-hot编码,又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。举个例子,假设我们有四个样本(行),每个样本有三个特征(列),如图: 上图中我们已经对每个特征进行了普通的数字编码 阅读全文
posted @ 2018-09-11 16:55 嘻嘻521 阅读(2567) 评论(0) 推荐(0) 编辑