09 2017 档案
摘要:1. Bloom-Filter算法简介 Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。 Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元
阅读全文
摘要:哈希 hash 原理 Hash (哈希,或者散列)函数在计算机领域,尤其是数据快速查找领域,加密领域用的极广。 其作用是将一个大的数据集映射到一个小的数据集上面(这些小的数据集叫做哈希值,或者散列值)。 一个应用是Hash table(散列表,也叫哈希表),是根据哈希值 (Key value) 而直
阅读全文
摘要:spark.serializer (default org.apache.spark.serializer.JavaSerializer ) 建议设置为 org.apache.spark.serializer.KryoSerializer,因为KryoSerializer比JavaSerialize
阅读全文