简介
哈希算法简单来说就是将一个元素映射成另一个元素,可以简单分类两类,
加密哈希,如MD5,SHA256等,
非加密哈希,如MurMurHash,CRC32,DJB等。
今天要介绍的MurMurHash由Austin Appleby在2008年发明,与其它流行的哈希函数相比,对于规律性较强的key,MurMurHash的随机分布特征表现更良好,Redis,Memcached,Cassandra,HBase,Lucene中都使用到了这种hash算法。
简单使用
java中Guava工具包提供了MurMurHash算法实现。
<dependency>
<groupId>com.google.guava</groupId>
<artifactId>guava</artifactId>
<version>27.1-jre</version>
</dependency>
调整参数fpp:手动设置错误率为 0.0001
// 要处理1亿个数据,用64MB大小的位图
BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charset.defaultCharset()), size, 0.0001);
//1%,有个概率问题,布隆越大,占用的空间越多,但是错误概率减小了 BloomFilter bloomFilter= BloomFilter.create(Funnels.stringFunnel(Charset.defaultCharset()),1000000,0.001);
import com.google.common.hash.HashCode; import com.google.common.hash.Hashing; import java.nio.charset.StandardCharsets; public class Client { public static void main(String[] args) { HashCode hashCode = Hashing.murmur3_128().hashString("hello world", StandardCharsets.UTF_8); System.out.println(hashCode.toString()); } }
输出结果为
0e617feb46603f53b163eb607d4697ab
Guava中的BloomFilter实现也用到了MurMurHash算法。