会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
好记性不如烂笔头
学无止境
博客园
首页
新随笔
联系
订阅
管理
2014年12月24日
.NET下文本相似度算法余弦定理和SimHash浅析及应用
摘要: 在数据采集及大数据处理的时候,数据排重、相似度计算是很重要的一个环节,由此引入相似度计算算法。常用的方法有几种:最长公共子串(基于词条空间)、最长公共子序列(基于权值空间、词条空间)、最少编辑距离法(基于词条空间)、汉明距离(基于权值空间)、余弦值(基于权值空间)等,今天我们着重介绍最后两种方式。
阅读全文
posted @ 2014-12-24 23:53 51tools.info
阅读(3400)
评论(11)
推荐(7)
编辑
公告
http://51tools.info 程序员的好帮手