关键词提取_tf_idf

TF-IDF(term frequency-inverse document frequency)-词频-逆文档频率

TF:统计一个词在文档中出现的频次,次数越多,表达能力越强

IDF:统计一个词在文档集的多少篇文档中出现,一个词在越少的文档中出现,则对该文档的区分能力就越强

 

词i在文档j中出现的概率:tf(word)=(word在文档中出现的次数)/(文档总词数)

                                         idf(word)=log【文档集中的总文档数/(1+出现词i的文档数量)】

                                                    分母加1是拉普拉斯平滑,避免有新的词在有语料库中没有出现过导致分母为0

                                         tf-idf=tf  * idf

#优化思路

     每个词的词性,出现的位置

posted on 2018-11-07 18:16  happygril3  阅读(319)  评论(0编辑  收藏  举报

导航