会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
猫七的blog
https://www.cnblogs.com/liuguangshou123/
博客园
首页
新随笔
联系
订阅
管理
2020年7月18日
自然语言处理——实战:使用tf-idf提取关键词并生成词云
摘要: 关键词提取 关键词的定义:这是一个仁者见仁,智者见智的问题。 一:词频统计 通过统计文章中反复出现的词语。 词频统计的流程:分词、停用词过滤、按词频取前n个。(m个元素取前n个元素通常利用最大堆解决。其复杂度为O(mlogn)) 缺点:高频词并不等价于关键词。 二:使用TF-IDF(词频-倒排文档频
阅读全文
posted @ 2020-07-18 09:45 猫七的blog
阅读(1856)
评论(0)
推荐(0)
编辑
公告