07 2016 档案
摘要:# -*- coding:gb2312 -*- from gensim import corpora, models, similarities from nltk.tokenize import word_tokenize from nltk.corpus import brown courses=[] temp="" for line in file('aaa'): if(line!...
阅读全文
摘要:首先,需要对英文文本做一些预处理工作,譬如去停用词,对文本进行tokenize,stemming以及过滤掉低频的词 然后,通过这些文档抽取一个“词袋(bag-of-words)“,将文档的token映射为id,然后就可以 将字符串 转换为用id表示的文档向量 {‘a’: 0, ‘damaged’:
阅读全文
摘要:常用的语言模型都是在近似地求 P(wt|w1,w2,…,wt−1)P(wt|w1,w2,…,wt−1)。比如 n-gram 模型就是用 P(wt|wt−n+1,…,wt−1)P(wt|wt−n+1,…,wt−1) 近似表示前者。 一种用神经网络构建二元语言模型(即 P(wt|wt−1)P(wt|wt
阅读全文