文本向量化笔记（一）

文本表示是自然语言处理中的基础工作，文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化是文本表示的一种重要方式。

文本向量化就是将文本表示成一系列能够表达文本语义的向量。无论是中文还是英文，词语都是表达文本处理的最基本单元。

当前阶段，对文本向量化大部分的研究都是通过词向量化实现的。与此同时，也有相当一部分研究者将文章或者句子作为文本处理的基本单元，于是产生了doc2vec 和str2vec 技术。
文本向量化方法：

以词语为基本处理单元的word2vec 技术

doc2vec

str2vec

文本向量化的实际案例一一将网页文本向量化。

向量化算法word2vec
词袋( Bag Of Word ) 模型是最早的以词语为基本处理单元的文本向量化方法。

两个简单的文本:
John likes to watch movies,Mary likes too.
John also likes to watch football games.
基于上述两个文档中出现的单词，构建如下词典( dictionary ) :
{ "John": 1 , "likes" : 2 , " to ": 3 , "watch ": 4 , "movies": 5 , "also" : 6 , "football":7 , "games ": 8 , "Mary": 9 , "too" : 10}
上面词典中包含10 个单词，每个单词有唯一的索引，那么每个文本我们可以使用一个10 维的向量来表示。如下所示:
[1 , 2 , 1 , 1, 1 , 0 , 0 , 0 , 1 , 1]
[1 , 1 , 1 , 1 , 0 , 1 , 1 , 1 , 0 , 0]
该向量与原来文本中单词出现的顺序没有关系，而是词典中每个单词在文本中出现的频率。该方法虽然简单易行但是存在如下三方面的问题:
维度灾难。 很显然，如果上述例子词典中包含10000 个单词，那么每个文本需要用10000 维的向量表示，也就是说除了文本中出现的词语位置不为0 ，其余9000多的位置均为0 ，如此高维度的向量会严重影响计算速度。