关键词提取_tf_idf

TF-IDF(term frequency-inverse document frequency)-词频-逆文档频率

TF:统计一个词在文档中出现的频次，次数越多，表达能力越强

IDF:统计一个词在文档集的多少篇文档中出现，一个词在越少的文档中出现，则对该文档的区分能力就越强

词i在文档j中出现的概率：tf（word）=（word在文档中出现的次数）/(文档总词数）

idf（word）=log【文档集中的总文档数/(1+出现词i的文档数量）】

分母加1是拉普拉斯平滑，避免有新的词在有语料库中没有出现过导致分母为0

tf-idf=tf * idf

#优化思路

每个词的词性，出现的位置

posted on 2018-11-07 18:16 happygril3 阅读(319) 评论(0) 编辑收藏举报

刷新页面返回顶部

happygril3