TF-IDF 学习

参考资料, 阮一峰的博客  http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

非常感谢他, 能用如此通俗易懂的文字来阐述概念

 

TF -- Term Frequency -- 词频 = 某词在文档中的出现频率/文档的总词数

IDF -- Inverse Document Frequency -- 逆文档频率 = log(语料库的文档总数/(包含该次的文档数 + 1))  如果词越常见则IDF越接近于0

 

TF-IDF = TF * IDF   与一个词在文档中的出现次数成正比,与该词在整个语料库中的出现次数成反比。

 

打算自己用python写点代码测试一下, 不知道工作量大不大

posted @ 2014-08-22 20:57  qeDVuHG  阅读(419)  评论(0编辑  收藏  举报