nlp——词袋模型BOW
词袋模型也称为BOW,亦即bag of words
下面通过一个列子说明词袋模型
有两个文本文档如下A和B:
A:John likes to watch movies. Mary likes too.
B:John also likes to watch football games.
具体实现方式:
基于上述两个文档中出现的单词,构建如下一个词典 (dictionary):
{"John": 1, "likes": 2,"to": 3, "watch": 4, "movies": 5,"also": 6, "football": 7, "games": 8,"Mary": 9, "too": 10}
上面的词典中包含10个单词, 每个单词有唯一的索引, 那么对应A和B文本我们可以使用一个10维的向量来表示。如下:
A:[1, 2, 1, 1, 1, 0, 0, 0, 1, 1] #John在A中出现一次,likes在A中出现2次,.......,also在A中出现0次
B:[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]
对向量解释如下:
向量的维度根据词典中不重复单词的个数确定。
向量中每个位置的指代的单词与文本中单词出现的顺序没有关系,与词典中的单词顺序——对应。
向量中每个数值是词典中每个单词在文本中出现的频率——即词频表示。
缺点:
无法考虑词语之间的顺序。