简介

哈希算法简单来说就是将一个元素映射成另一个元素,可以简单分类两类,
加密哈希,如MD5,SHA256等,
非加密哈希,如MurMurHash,CRC32,DJB等。
今天要介绍的MurMurHash由Austin Appleby在2008年发明,与其它流行的哈希函数相比,对于规律性较强的key,MurMurHash的随机分布特征表现更良好,Redis,Memcached,Cassandra,HBase,Lucene中都使用到了这种hash算法。

简单使用

java中Guava工具包提供了MurMurHash算法实现。

<dependency>
  <groupId>com.google.guava</groupId>
  <artifactId>guava</artifactId>
  <version>27.1-jre</version>
</dependency>

 

调整参数fpp:手动设置错误率为 0.0001
 // 要处理1亿个数据,用64MB大小的位图

BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charset.defaultCharset()),
        size, 0.0001);
     //1%,有个概率问题,布隆越大,占用的空间越多,但是错误概率减小了
        BloomFilter bloomFilter= BloomFilter.create(Funnels.stringFunnel(Charset.defaultCharset()),1000000,0.001);
 

 

import com.google.common.hash.HashCode;
import com.google.common.hash.Hashing;
import java.nio.charset.StandardCharsets;

public class Client {

  public static void main(String[] args) {
    HashCode hashCode = Hashing.murmur3_128().hashString("hello world", StandardCharsets.UTF_8);
    System.out.println(hashCode.toString());
  }

}

输出结果为

0e617feb46603f53b163eb607d4697ab

Guava中的BloomFilter实现也用到了MurMurHash算法。

 
posted on 2022-05-20 11:57  lshan  阅读(561)  评论(0编辑  收藏  举报