会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
飞末
博客园
首页
新随笔
联系
订阅
管理
2019年2月12日
词袋和 TF-IDF 模型
摘要: 做文本分类等问题的时,需要从大量语料中提取特征,并将这些文本特征变换为数值特征。常用的有词袋模型和TF-IDF 模型 1.词袋模型 词袋模型是最原始的一类特征集,忽略掉了文本的语法和语序,用一组无序的单词序列来表达一段文字或者一个文档。可以这样理解,把整个文档集的所有出现的词都丢进袋子里面,然后无序
阅读全文
posted @ 2019-02-12 16:48 飞末
阅读(1712)
评论(0)
推荐(0)
编辑
公告