摘要: 在数据采集及大数据处理的时候,数据排重、相似度计算是很重要的一个环节,由此引入相似度计算算法。常用的方法有几种:最长公共子串(基于词条空间)、最长公共子序列(基于权值空间、词条空间)、最少编辑距离法(基于词条空间)、汉明距离(基于权值空间)、余弦值(基于权值空间)等,今天我们着重介绍最后两种方式。 阅读全文
posted @ 2014-12-24 23:53 51tools.info 阅读(3400) 评论(11) 推荐(7) 编辑
http://51tools.info 程序员的好帮手