07 2016 档案

摘要:# -*- coding:gb2312 -*- from gensim import corpora, models, similarities from nltk.tokenize import word_tokenize from nltk.corpus import brown courses=[] temp="" for line in file('aaa'): if(line!... 阅读全文
posted @ 2016-07-29 12:26 奋斗中的菲比 阅读(750) 评论(0) 推荐(0) 编辑
摘要:首先,需要对英文文本做一些预处理工作,譬如去停用词,对文本进行tokenize,stemming以及过滤掉低频的词 然后,通过这些文档抽取一个“词袋(bag-of-words)“,将文档的token映射为id,然后就可以 将字符串 转换为用id表示的文档向量 {‘a’: 0, ‘damaged’: 阅读全文
posted @ 2016-07-11 14:23 奋斗中的菲比 阅读(253) 评论(0) 推荐(0) 编辑
摘要:常用的语言模型都是在近似地求 P(wt|w1,w2,…,wt−1)P(wt|w1,w2,…,wt−1)。比如 n-gram 模型就是用 P(wt|wt−n+1,…,wt−1)P(wt|wt−n+1,…,wt−1) 近似表示前者。 一种用神经网络构建二元语言模型(即 P(wt|wt−1)P(wt|wt 阅读全文
posted @ 2016-07-05 19:15 奋斗中的菲比 阅读(176) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示