nlp知识

1、词集模型

将每个词的出现与否作为一个特征，不考虑词频。也就是一个词在文本在文本中出现1次和多次特征处理是一样的。

2、词袋模型

与词集相比，会考虑词频

sklearn中 CountVectorizer与

CountVectorizer: 会以每一个词作为特征，求出每一个词的词频

3、hash feature

特征哈希是一种降维的方法，因为由于词袋模型产生的向量维度很大，而特征哈希就是对每一个特征进行hash以进行降维

具体参考https://www.cnblogs.com/pinard/p/6688348.html

TF-IDF

vacabulary的作用：

1、原理

2、应用

估计一个词在一篇文章的重要程度。主题分类

与余弦定理一样，可以判断两篇文章的相似度

3、不足

仅考虑词频，没考虑单词之间的位置信息

word2vec 词向量

1、onehot 稀疏向量

定义：维数为所有单词的个数 N，如果该单词存在表示为1，其余位置为0

缺点：1、如果单词过多，会引起维度灾难

2、无法体现近义词之间关系

2、密集向量

定义：基本思路是通过训练将每个词映射成一个固定长度的短向量，所有这些向量就构成一个词向量空间，每一个向量可视为该空间上的一个点

posted @ 2018-06-19 15:09 zhaop 阅读(146) 评论(0) 编辑收藏举报

刷新页面返回顶部

zhaop