摘要: 关键词提取 关键词的定义:这是一个仁者见仁,智者见智的问题。 一:词频统计 通过统计文章中反复出现的词语。 词频统计的流程:分词、停用词过滤、按词频取前n个。(m个元素取前n个元素通常利用最大堆解决。其复杂度为O(mlogn)) 缺点:高频词并不等价于关键词。 二:使用TF-IDF(词频-倒排文档频 阅读全文
posted @ 2020-07-18 09:45 猫七的blog 阅读(1856) 评论(0) 推荐(0) 编辑