最小哈希

在计算机科学领域，最小哈希（或最小哈希式独立排列局部性敏感哈希）方法是一种快速判断两个集合是否相似的技术。这种方法是由Andrei Broder （1997）,^[1]发明的，最初在AltaVista搜索引擎中用于在搜索结果中检测并消除重复Web页面。^[2]

它同样也应用于大规模聚类问题，比如通过文档间包含的词语相似性进行聚类。^[1]

雅可比相似度与最小哈希值

两个集合 $A 和 B 的雅可比相似度系数定义如下： [3]$

J(A,B) = {{|A \cap B|}\over{|A \cup B|}}.

它是一个0到1之间的数值上，当其为0时表示两个集合不相交，当其为1时表示两个集合相等，其他的情况则在0和1之间。它广泛地用于两集合间相似性的判断：当雅可比系数趋向于1时，两个集合更相似；反之，当雅可比系数趋向于0时，两个集合更不相似。

假定h是一个将 $A 和 B 中的元素映射到一些不相交整数的哈希函数，而且针对给定的 S ，定义 h min (S)为S集合中具有最小h(x)函数值的元素x。这样，只有当最小哈希值的并集 A \cup B 依赖于交集 A \cap B 时，有 h min (A) = h min (B)。因此，$

Pr[h min (A) = h min (B)] = J (A, B).

另一方面来说，如果 $r 是一个当 h min (A) = h min (B)时值为1，其它情况下值为0的随机变量，那么 r 可认为是 J (A, B)的无偏估计。尽管此时方差过高，单独使用时没什么用处。最小哈希方法的思想是通过平均用同一方式构造的许多随机变量，从而减少方差。$

算法

多哈希函数的变种

最简单的最小哈希方法是使用 $k 个不同的哈希函数，其中 k 是固定的整数参数，使用这 k 个函数所对应的 k 个 h min (S)值来描述每个集合 S 。使用这种最简单的版本来判断 J (A, B)，假定y是使得 h min (A) = h min (B)的哈希函数个数，使用 y / k 作为估计。则此估计是 k 个不同的0-1随机变量的平均值，其中每个随机变量当 h min (A) = h min (B)值为1，反之为0，并且是 J (A, B)的无偏估计。因此，该平均值同样也是一个无偏估计，而且通过0-1随机变量之和的标准 Chernoff上界可得知，其期望误差是 O(1/\sqrt k)。所以，针对任意给定的常数 ε > 0，存在另一常数 k = O(1/ε 2)，其估计的期望误差不超过 ε。例如，使用400个哈希函数值来估计 J (A, B)，其期望误差将小于或等于.05。$

单一哈希函数的变种

计算多个哈希函数的代价是相当昂贵的，因此有关最小哈希方法的另一种实现方法是仅使用单一的哈希函数来避免这个问题。对于每个集合，使用这个单一的哈希函数选出其中的多个值，而不是每个哈希函数选择一个值。假定 $h 是一个哈希函数， k 是一个固定整数。如果 S 是 h 域上 k 或更多元素的集合，则定义 h (k) (S)为 S 中具有最小 h 值的 k 个元素所组成的子集。该子集 h (k) (S)可用作集合 S 的一个签名，任意两个集合间的相似度可通过比较它们的签名来计算。$

特别地，假定A and B为任意两个集合， $X = h (k) (h (k) (A) \cup h (k) (B)) = h (k) (A \cup B)是 A \cup B 的 k 个元素的集合，如果 h 是随机变量并且 k 个元素的任意子集等可能地被选择。也就是说， X 是 A \cup B 的简单随机样本。 Y = X \cap h (k) (A) \cap h (k) (B)是集合 X 中属于 A \cap B 交集的元素。因此，| Y |/ k 是 J (A, B)的无偏估计。单一哈希函数的估计与多个哈希函数产生的估计的不同在于 Y 总是有 k 个元素，而多个哈希函数由于两个不同的哈希函数可能会产生相同的最小值，因此可能会产生更少的样本元素。然而，当 k 相对集合大小来说很小时，该区别可忽略不计。$

通过不重复取样的标准Chernoff上界，该估计的期望误差为 $O(1/\sqrt k)，其性能与多个哈希函数方法相匹配。$

耗时分析

| $Y |/ k 估计通过给定集合的两个签名能够在 O(k)能够计算出来，因此，当 ε and k 为常数时，从签名中计算相似度估计的时间也为常数，这样当众多两两相似度需要计算时，该方法在运行时间上与每个集合中元素的完全比较相比，能够有实质性的优化。$

最小哈希式独立排列

为了实现上述的最小哈希方法，哈希函数 $lcm(1, 2, ..., n) \ge e^{n-o(n)}$

由于实践上不可行，引入了最小哈希式独立的两个变型概念：严格最小哈希式独立排列簇和近似最小哈希式独立排列簇。严格的最小哈希式独立是指最小哈希式独立属性被限制在集合基数至多为 $k 的一些集合中。 [4] 近似最小哈希式独立最多有一个固定的概率 ε变化为完全独立。 [5]$

应用

最小哈希的最初应用包括在Web文档中聚类并消除近似重复，这通过在那些文档中出现的词语集合来描述。^[1]^[2] 相似的技术也应用于其他类型数据的聚类和近似重复消除，如图片：在图片数据中，一张图片可以通过分割用很多更小的子图片集合或更多复杂图片特征的描述集合来表示。^[6]

Schleimer, Wilkerson & Aiken（2003）使用最小哈希技术作为数字文档剽窃检测方法的一部分，他们的方法将文档表示成给定长度的子串集合，将文档划分成更大固定长度的窗口，然后使用子串的最小哈希值作为每个窗口的描述值。如果文本的拷贝部分比两倍窗口尺寸还要长，则该描述值将肯定匹配保存在数据库中众多描述值中的一个，这样那个窗口就可以用来检查有多少内容是拷贝的。^[7]

在数据挖掘领域，Cohen et al.（2001）使用最小哈希技术作为关联规则学习的工具。给定一个数据库，其中每一项都有多个属性（可看作是每行为一个数据库项，每列为一个属性的0-1矩阵），他们将最小哈希的近似度方法应用于Jaccard系数，用来辨别频繁共同出现的属性候选对，然后仅计算这些候选对的确切系数值，以确定哪些项目共同出现的频度低于一个给定的严格阈值。^[8]

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

最小哈希 minhash