2018 年 8月 6 日随笔档案 - bep_code

2018年8月6日

word2vec原理(一) CBOW与Skip-Gram模型基础——转载自刘建平Pinard

摘要：转载来源：http://www.cnblogs.com/pinard/p/7160330.html word2vec是google在2013年推出的一个NLP工具，它的特点是将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。虽然源码是开源的，但是谷歌的代码库国内无法阅读全文

posted @ 2018-08-06 17:54 bep_code 阅读(1930) 评论(0) 推荐(0) 编辑

TF-IDF基本原理

摘要： 1.TF-IDF介绍 TF/IDF（term frequency–inverse document frequency）用以评估字词对于一个文件集其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，随着它在语料库中出现的频率下降。注意前后的中心词不一样。 • 词频 (term 阅读全文

posted @ 2018-08-06 15:48 bep_code 阅读(903) 评论(0) 推荐(0) 编辑

N-Gram的基本原理

摘要： 1.N-Gram的介绍 N-Gram是基于一个假设：第n个词出现与前n-1个词相关，而与其他任何词不相关（这也是隐马尔可夫当中的假设）。整个句子出现的概率就等于各个词出现的概率乘积。各个词的概率可以通过语料中统计计算得到。通常N-Gram取自文本或语料库。 N=1时称为unigram，N=2称为bi 阅读全文

posted @ 2018-08-06 14:49 bep_code 阅读(10516) 评论(0) 推荐(0) 编辑

bep_code

公告