nlp知识

1、词集模型

       将每个词的出现与否作为一个特征,不考虑词频。也就是一个词在文本在文本中出现1次和多次特征处理是一样的。

 2、词袋模型

      与词集相比,会考虑词频

sklearn中 CountVectorizer与

CountVectorizer: 会以每一个词作为特征,求出每一个词的词频

http://www.cnblogs.com/pinard/p/6688348.html 

3、hash feature

   特征哈希是一种降维的方法,因为由于词袋模型产生的向量维度很大,而特征哈希就是对每一个特征进行hash以进行降维

   具体参考https://www.cnblogs.com/pinard/p/6688348.html

     

 TF-IDF

vacabulary的作用:

1、原理

2、应用

    估计一个词在一篇文章的重要程度。 主题分类

    与余弦定理一样,可以判断两篇文章的相似度

3、不足

    仅考虑词频,没考虑单词之间的位置信息

 

word2vec 词向量

1、onehot 稀疏向量

     定义:维数为 所有单词的个数 N,如果该单词存在表示为1,其余位置为0

     缺点:1、如果单词过多,会引起维度灾难

                 2、无法体现近义词之间关系

2、密集向量

      定义:基本思路是通过训练将每个词映射成一个固定长度的短向量,所有这些向量就构成一个词向量空间,每一个向量可视为该空间上的一个点

 

posted @ 2018-06-19 15:09  zhaop  阅读(146)  评论(0编辑  收藏  举报