会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
何海洋
路上风景正好,天上太阳正晴。
博客已停止维护。
博客园
首页
联系
管理
2015年5月9日
初学Hadoop之计算TF-IDF值
摘要: 1.词频 TF(term frequency)词频,就是该分词在该文档中出现的频率,算法是:(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越重要,即权重就越大。例如:一篇文档分词后,总共有500个分词,而分词”Hello”出现的次数是20次,则TF值是: tf =20/...
阅读全文
posted @ 2015-05-09 18:49 何海洋
阅读(4634)
评论(0)
推荐(0)
编辑
公告