随笔分类 -  算法

摘要:simhash&hamming distince simhash 是一种长文本的查重算法 SimHash本身属于一种局部敏感hash,其主要思想是降维,将高维的特征向量转化(加权)成低位的hash,通过算出两个海明距离来确定两篇文章的相似度,海明距离越小,相似度越低,一般海明距离为3就代表两篇文章相 阅读全文
posted @ 2024-07-13 16:35 shakerChann 阅读(41) 评论(0) 推荐(0) 编辑
摘要:排序的基本概念 排序的稳定性: 如果待排序的表中有多个关键字相同的字段,经过排序之后这些具有相同关键字的元素之间的相对次序保持不变,则称这种排序为稳定排序;反之,如果具有相同关键字的元素之间的相对次序发生变化则称为不稳定排序。 对于不稳定的排序算法,只要举出一个实例,即可说明它的不稳定性;而对于稳定 阅读全文
posted @ 2019-07-17 21:49 shakerChann 阅读(322) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示