摘要:
本文介绍一些常用的无监督关键词提取算法:TF-IDF,TextRank,主题模型算法 一、TF-IDF算法 即词频-逆文档频次算法,其基本思想是想要找到这样的词:它在一篇文档中出现的频次高(TF),即说明这篇文档很有可能围绕这个词进行说明;但是并不在多篇文档中出现(IDF),即说明这个词对文档的区分 阅读全文
摘要:
高频词提取(TF,Term Frequency),高频词指在文档中出现频率较高并且有用的词。 所以我们要做的工作有:加载数据,去除停用词,用字典统计高频词,输出top10的高频词。 import glob import random import jieba def getContent(path) 阅读全文