摘要: 转自: http://dongxicheng.org/structure/bitmap/ 1. 概述 位图(bitmap)是一种非常常用的结构,在索引,数据压缩等方面有广泛应用。本文介绍了位图的实现方法及其应用场景。 2. 位图实现 (1)自己实现 在位图中,每个元素为“0”或“1”,表示其对应的元素不存在或者存在。 #define INT_BITS sizeof(int)... 阅读全文
posted @ 2015-09-05 20:12 Vincent.Cai2010 阅读(530) 评论(0) 推荐(0) 编辑
摘要: 转自: http://blog.csdn.net/jiaomeng/article/details/1495500 Bloom Filter概念和原理 焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可... 阅读全文
posted @ 2015-09-05 20:07 Vincent.Cai2010 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 转自: http://www.dbafree.net/?p=36 BloomFilter–大规模数据处理利器 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例 为了说明Bloom Filter存在的重要意义,举一个实例: 假设要你写一个网络爬虫程序... 阅读全文
posted @ 2015-09-05 20:06 Vincent.Cai2010 阅读(488) 评论(0) 推荐(0) 编辑
摘要: 转自: http://shmilyaw-hotmail-com.iteye.com/blog/1741608 简介 bitmap在很多海量数据处理的情况下会用到。一些典型的情况包括数据过滤,数据位设置和统计等。 它的引入和应用通常是考虑到海量数据的情况下,用普通的数组会超出数据保存的范围。使用这种位图的方式虽然不能在根本上解决海量数据处理的问题,但是在一定的数据范围内,它是一种有效的... 阅读全文
posted @ 2015-09-05 19:37 Vincent.Cai2010 阅读(3227) 评论(0) 推荐(0) 编辑
摘要: 转载自董的博客 相比传统的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐(注:列式存储不是万能高效的,很多场景下行式存储仍更加高效),尤其是在数据列(column)数很多,但每次操作仅针对若干列的情景,列式存储引擎的性价比更高。 在互联网大数据应用场景下,大部分情况下,数据量很大且数据字段数目很多,但每次查询数据只针对其中的少数几行,这时候列式存储是极佳的选择,目前在开... 阅读全文
posted @ 2015-09-05 17:03 Vincent.Cai2010 阅读(2010) 评论(0) 推荐(0) 编辑
摘要: 转自: http://www.searchdatabase.com.cn/showcontent_61985.htm 最早的商业列式数据库是在1995年发布的Sybase IQ,但是一直到1999年左右才慢慢稳定到能够投入生产环境。现在的大多数分析型数据库都是在2003-2005年从Postgresql 分支出来的。其中尤其是Vertica 为代表的列数据库已经在大规模数据仓库环境中证明其特别... 阅读全文
posted @ 2015-09-05 16:39 Vincent.Cai2010 阅读(1223) 评论(0) 推荐(0) 编辑
摘要: 转自: http://confluent.io/blog/stream-data-platform-2 http://www.infoq.com/cn/news/2015/03/apache-kafka-stream-data-advice/ 在《流数据平台构建实战指南》第一部分中,Confluent联合创始人Jay Kreps介绍了如何构建一个公司范围的实时流数据中心。... 阅读全文
posted @ 2015-09-05 15:35 Vincent.Cai2010 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 转自: http://www.confluent.io/blog/stream-data-platform-1/ These days you hear a lot about "stream processing", "event data", and "real-time", often related to technologies like Kafka, Storm, Samza, or... 阅读全文
posted @ 2015-09-05 15:32 Vincent.Cai2010 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 转自: http://blog.csdn.net/kevin_hx001/article/details/9413565 http://kafka.apache.org/design.html 我们为什么要构建这个系统 Kafka是一个分布式、分区的、多副本的、多订阅者的“提交”日志系统。 我们构建这个系统是因为我们认为,一个实现完好的操作日志系统是一个最基本的基础设施,它可... 阅读全文
posted @ 2015-09-05 13:14 Vincent.Cai2010 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 转自: http://blog.csdn.net/dc_726/article/details/41552593 目录(?)[-] 问题1不同任务或框架间交换数据慢 问题2执行引擎和存储引擎是同一进程 问题3数据被重复加载和GC Tachyon如何容错 参考资料 UCBerkeley研发的Tachyon(超光子['tækiːˌɒn],名字要不要这么太嚣张啊:... 阅读全文
posted @ 2015-09-05 12:56 Vincent.Cai2010 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 转自: http://www.csdn.net/article/2015-06-25/2825056 摘要:Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率。 Tachyon是Spark生态系统内快速崛起的一个新项目。 本质上, Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了... 阅读全文
posted @ 2015-09-05 12:53 Vincent.Cai2010 阅读(182) 评论(0) 推荐(0) 编辑