会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
弥漫的幻雪的博客
Powered by
博客园
博客园
|
首页
|
新随笔
|
联系
|
订阅
|
管理
2018年5月9日
Tf-Idf
摘要: 词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。 一个计算文件频率 (DF) 的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一
阅读全文
posted @ 2018-05-09 17:25 弥漫的幻雪
阅读(121)
评论(0)
推荐(0)
编辑
BOW词袋模型
摘要: 忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。 1:Bob likes to play basketball, Jim likes too. 2:Bob also likes to play football games. 基于这两个文本文档,构造一个
阅读全文
posted @ 2018-05-09 17:22 弥漫的幻雪
阅读(145)
评论(0)
推荐(0)
编辑