会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
我的代码宝库
博客园
首页
新随笔
联系
管理
订阅
2015年1月5日
.NET下文本相似度算法余弦定理和SimHash浅析及应用
摘要: 余弦相似性原理:首先我们先把两段文本分词,列出来所有单词,其次我们计算每个词语的词频,最后把词语转换为向量,这样我们就只需要计算两个向量的相似程度.我们简单表述如下文本1:我/爱/北京/天安门/ 经过分词求词频得出向量(伪向量) [1,1,1,1]文本2:我们/都爱/北京/天安门/ 经过分词求词频得...
阅读全文
posted @ 2015-01-05 09:06 r163
阅读(507)
评论(2)
推荐(1)
编辑
公告