摘要: 本文介绍一些常用的无监督关键词提取算法:TF-IDF,TextRank,主题模型算法 一、TF-IDF算法 即词频-逆文档频次算法,其基本思想是想要找到这样的词:它在一篇文档中出现的频次高(TF),即说明这篇文档很有可能围绕这个词进行说明;但是并不在多篇文档中出现(IDF),即说明这个词对文档的区分 阅读全文
posted @ 2020-03-10 21:15 小千北同学超爱写代码 阅读(881) 评论(0) 推荐(0) 编辑
摘要: 高频词提取(TF,Term Frequency),高频词指在文档中出现频率较高并且有用的词。 所以我们要做的工作有:加载数据,去除停用词,用字典统计高频词,输出top10的高频词。 import glob import random import jieba def getContent(path) 阅读全文
posted @ 2020-03-10 20:29 小千北同学超爱写代码 阅读(2047) 评论(0) 推荐(0) 编辑