2015 年 9月 5 日随笔档案 - Vincent.Cai2010

2015年9月5日

摘要：转自: http://dongxicheng.org/structure/bitmap/ 1. 概述位图（bitmap）是一种非常常用的结构，在索引，数据压缩等方面有广泛应用。本文介绍了位图的实现方法及其应用场景。 2. 位图实现（1）自己实现在位图中，每个元素为“0”或“1”，表示其对应的元素不存在或者存在。 #define INT_BITS sizeof(int)... 阅读全文

posted @ 2015-09-05 20:12 Vincent.Cai2010 阅读(530) 评论(0) 推荐(0) 编辑

Bloom Filter概念和原理

摘要：转自： http://blog.csdn.net/jiaomeng/article/details/1495500 Bloom Filter概念和原理焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可... 阅读全文

posted @ 2015-09-05 20:07 Vincent.Cai2010 阅读(206) 评论(0) 推荐(0) 编辑

BloomFilter–大规模数据处理利器

摘要：转自: http://www.dbafree.net/?p=36 BloomFilter–大规模数据处理利器 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合。一. 实例为了说明Bloom Filter存在的重要意义，举一个实例：假设要你写一个网络爬虫程序... 阅读全文

posted @ 2015-09-05 20:06 Vincent.Cai2010 阅读(488) 评论(0) 推荐(0) 编辑

java bitmap/bitvector的分析和应用

摘要：转自: http://shmilyaw-hotmail-com.iteye.com/blog/1741608 简介 bitmap在很多海量数据处理的情况下会用到。一些典型的情况包括数据过滤，数据位设置和统计等。它的引入和应用通常是考虑到海量数据的情况下，用普通的数组会超出数据保存的范围。使用这种位图的方式虽然不能在根本上解决海量数据处理的问题，但是在一定的数据范围内，它是一种有效的... 阅读全文

posted @ 2015-09-05 19:37 Vincent.Cai2010 阅读(3227) 评论(0) 推荐(0) 编辑

开源列式存储引擎Parquet和ORC

摘要：转载自董的博客相比传统的行式存储引擎，列式存储引擎具有更高的压缩比，更少的IO操作而备受青睐（注：列式存储不是万能高效的，很多场景下行式存储仍更加高效），尤其是在数据列（column）数很多，但每次操作仅针对若干列的情景，列式存储引擎的性价比更高。在互联网大数据应用场景下，大部分情况下，数据量很大且数据字段数目很多，但每次查询数据只针对其中的少数几行，这时候列式存储是极佳的选择，目前在开... 阅读全文

posted @ 2015-09-05 17:03 Vincent.Cai2010 阅读(2010) 评论(0) 推荐(0) 编辑

浅析列式数据库的特点

摘要：转自: http://www.searchdatabase.com.cn/showcontent_61985.htm 最早的商业列式数据库是在1995年发布的Sybase IQ，但是一直到1999年左右才慢慢稳定到能够投入生产环境。现在的大多数分析型数据库都是在2003-2005年从Postgresql 分支出来的。其中尤其是Vertica 为代表的列数据库已经在大规模数据仓库环境中证明其特别... 阅读全文

posted @ 2015-09-05 16:39 Vincent.Cai2010 阅读(1223) 评论(0) 推荐(0) 编辑

Putting Apache Kafka To Use: A Practical Guide to Building a Stream Data Platform-part 2

摘要：转自： http://confluent.io/blog/stream-data-platform-2 http://www.infoq.com/cn/news/2015/03/apache-kafka-stream-data-advice/ 在《流数据平台构建实战指南》第一部分中，Confluent联合创始人Jay Kreps介绍了如何构建一个公司范围的实时流数据中心。... 阅读全文

posted @ 2015-09-05 15:35 Vincent.Cai2010 阅读(199) 评论(0) 推荐(0) 编辑

Putting Apache Kafka To Use: A Practical Guide to Building a Stream Data Platform-part 1

摘要：转自: http://www.confluent.io/blog/stream-data-platform-1/ These days you hear a lot about "stream processing", "event data", and "real-time", often related to technologies like Kafka, Storm, Samza, or... 阅读全文

posted @ 2015-09-05 15:32 Vincent.Cai2010 阅读(174) 评论(0) 推荐(0) 编辑

Apache Kafka之设计

摘要：转自: http://blog.csdn.net/kevin_hx001/article/details/9413565 http://kafka.apache.org/design.html 我们为什么要构建这个系统 Kafka是一个分布式、分区的、多副本的、多订阅者的“提交”日志系统。我们构建这个系统是因为我们认为，一个实现完好的操作日志系统是一个最基本的基础设施，它可... 阅读全文

posted @ 2015-09-05 13:14 Vincent.Cai2010 阅读(180) 评论(0) 推荐(0) 编辑

分布式内存文件系统Tachyon

摘要：转自: http://blog.csdn.net/dc_726/article/details/41552593 目录(?)[-] 问题1不同任务或框架间交换数据慢问题2执行引擎和存储引擎是同一进程问题3数据被重复加载和GC Tachyon如何容错参考资料 UCBerkeley研发的Tachyon(超光子['tækiːˌɒn]，名字要不要这么太嚣张啊：... 阅读全文

posted @ 2015-09-05 12:56 Vincent.Cai2010 阅读(156) 评论(0) 推荐(0) 编辑

Tachyon：Spark生态系统中的分布式内存文件系统

摘要：转自: http://www.csdn.net/article/2015-06-25/2825056 摘要：Tachyon把内存存储的功能从Spark中分离出来，使Spark可以更专注计算的本身，以求通过更细的分工达到更高的执行效率。 Tachyon是Spark生态系统内快速崛起的一个新项目。本质上， Tachyon是个分布式的内存文件系统，它在减轻Spark内存压力的同时，也赋予了... 阅读全文

posted @ 2015-09-05 12:53 Vincent.Cai2010 阅读(182) 评论(0) 推荐(0) 编辑