摘要: TF-IDF介绍(详见):https://www.cnblogs.com/yhll/p/9831267.html 例子: 假设有一篇文章包含了10000个词组,其中“中国”、“石油”、出现100次,“开采”出现200次,“的”出现500次(假设没有去除停用词) 语料库中共有1000篇文档,其中包含“ 阅读全文
posted @ 2018-10-22 18:20 Sgoyi 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 什么是TF-IDF[维基百科] TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重 阅读全文
posted @ 2018-10-22 17:19 Sgoyi 阅读(593) 评论(0) 推荐(0) 编辑