摘要: 转载来源:http://www.cnblogs.com/pinard/p/7160330.html word2vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。虽然源码是开源的,但是谷歌的代码库国内无法 阅读全文
posted @ 2018-08-06 17:54 bep_code 阅读(1874) 评论(0) 推荐(0) 编辑
摘要: 1.TF-IDF介绍 TF/IDF(term frequency–inverse document frequency)用以评估字词 对于一个文件集其中一份文件的重要程度。字词的重要性随着它在文件中出 现的次数成正比增加,随着它在语料库中出现的频率下降。注意前后的中心词不一样。 • 词频 (term 阅读全文
posted @ 2018-08-06 15:48 bep_code 阅读(865) 评论(0) 推荐(0) 编辑
摘要: 1.N-Gram的介绍 N-Gram是基于一个假设:第n个词出现与前n-1个词相关,而与其他任何词不相关(这也是隐马尔可夫当中的假设)。整个句子出现的概率就等于各个词出现的概率乘积。各个词的概率可以通过语料中统计计算得到。通常N-Gram取自文本或语料库。 N=1时称为unigram,N=2称为bi 阅读全文
posted @ 2018-08-06 14:49 bep_code 阅读(9825) 评论(0) 推荐(0) 编辑