08 2017 档案

摘要:一、基本概念 simhash是为了计算一篇文档之间的相似度存在的,通过simhash算法可以计算出文档的simhash值,通过各个文档计算出的二进制值来计算文档之间的汉明距离,然后根据汉明距离来比较文档之间的相似度。汉明距离是指两个相同长度的字符串相同位置上不同的字符的个数。 simhash算法分为 阅读全文
posted @ 2017-08-31 14:23 ->大胖子 阅读(1356) 评论(0) 推荐(0) 编辑
摘要:一、均值hash 均值hash方法是对每幅图片生成一个“指纹”字符串,然后通过比较不同图片的指纹来确定图片的相似性,比较结果越接近,则说明图片越相似。 计算均值hash的步骤。 1、缩小尺寸 去除高频和细节的最快方法是缩小图片,将图片缩小到8x8的尺寸,总共64个像素。不要保持纵横比,只需将其变成8 阅读全文
posted @ 2017-08-31 14:22 ->大胖子 阅读(3427) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。
posted @ 2017-08-24 20:33 ->大胖子 阅读(9) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。
posted @ 2017-08-24 15:33 ->大胖子 阅读(5) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示