Vincent.Cai2010 - 博客园

2015年9月5日

摘要：转载自董的博客相比传统的行式存储引擎，列式存储引擎具有更高的压缩比，更少的IO操作而备受青睐（注：列式存储不是万能高效的，很多场景下行式存储仍更加高效），尤其是在数据列（column）数很多，但每次操作仅针对若干列的情景，列式存储引擎的性价比更高。在互联网大数据应用场景下，大部分情况下，数据量很大且数据字段数目很多，但每次查询数据只针对其中的少数几行，这时候列式存储是极佳的选择，目前在开... 阅读全文

posted @ 2015-09-05 17:03 Vincent.Cai2010 阅读(2099) 评论(0) 推荐(0)

浅析列式数据库的特点

摘要：转自: http://www.searchdatabase.com.cn/showcontent_61985.htm 最早的商业列式数据库是在1995年发布的Sybase IQ，但是一直到1999年左右才慢慢稳定到能够投入生产环境。现在的大多数分析型数据库都是在2003-2005年从Postgresql 分支出来的。其中尤其是Vertica 为代表的列数据库已经在大规模数据仓库环境中证明其特别... 阅读全文

posted @ 2015-09-05 16:39 Vincent.Cai2010 阅读(1309) 评论(0) 推荐(0)

Putting Apache Kafka To Use: A Practical Guide to Building a Stream Data Platform-part 2

摘要：转自： http://confluent.io/blog/stream-data-platform-2 http://www.infoq.com/cn/news/2015/03/apache-kafka-stream-data-advice/ 在《流数据平台构建实战指南》第一部分中，Confluent联合创始人Jay Kreps介绍了如何构建一个公司范围的实时流数据中心。... 阅读全文

posted @ 2015-09-05 15:35 Vincent.Cai2010 阅读(237) 评论(0) 推荐(0)

Putting Apache Kafka To Use: A Practical Guide to Building a Stream Data Platform-part 1

摘要：转自: http://www.confluent.io/blog/stream-data-platform-1/ These days you hear a lot about "stream processing", "event data", and "real-time", often related to technologies like Kafka, Storm, Samza, or... 阅读全文

posted @ 2015-09-05 15:32 Vincent.Cai2010 阅读(216) 评论(0) 推荐(0)

Apache Kafka之设计

摘要：转自: http://blog.csdn.net/kevin_hx001/article/details/9413565 http://kafka.apache.org/design.html 我们为什么要构建这个系统 Kafka是一个分布式、分区的、多副本的、多订阅者的“提交”日志系统。我们构建这个系统是因为我们认为，一个实现完好的操作日志系统是一个最基本的基础设施，它可... 阅读全文

posted @ 2015-09-05 13:14 Vincent.Cai2010 阅读(205) 评论(0) 推荐(0)

分布式内存文件系统Tachyon

摘要：转自: http://blog.csdn.net/dc_726/article/details/41552593 目录(?)[-] 问题1不同任务或框架间交换数据慢问题2执行引擎和存储引擎是同一进程问题3数据被重复加载和GC Tachyon如何容错参考资料 UCBerkeley研发的Tachyon(超光子['tækiːˌɒn]，名字要不要这么太嚣张啊：... 阅读全文

posted @ 2015-09-05 12:56 Vincent.Cai2010 阅读(186) 评论(0) 推荐(0)

Tachyon：Spark生态系统中的分布式内存文件系统

摘要：转自: http://www.csdn.net/article/2015-06-25/2825056 摘要：Tachyon把内存存储的功能从Spark中分离出来，使Spark可以更专注计算的本身，以求通过更细的分工达到更高的执行效率。 Tachyon是Spark生态系统内快速崛起的一个新项目。本质上， Tachyon是个分布式的内存文件系统，它在减轻Spark内存压力的同时，也赋予了... 阅读全文

posted @ 2015-09-05 12:53 Vincent.Cai2010 阅读(216) 评论(0) 推荐(0)

2015年9月3日

Python垃圾回收机制

摘要： Python GC主要使用引用计数（reference counting）来跟踪和回收垃圾。在引用计数的基础上，通过“标记-清除”（mark and sweep）解决容器对象可能产生的循环引用问题，通过“分代回收”（generation collection）以空间换时间的方法提高垃圾回收效率。发现有网友的博文已经比较清楚得阐述了这个问题，特此记录。 http://hbprotoss.githu... 阅读全文

posted @ 2015-09-03 23:28 Vincent.Cai2010 阅读(199) 评论(0) 推荐(0)

一行 Python 实现并行化 -- 日常多线程操作的新思路

摘要：转自： http://www.zhangzhibo.net/2014/02/01/parallelism-in-one-line/ http://chriskiehl.com/article/parallelism-in-one-line/ Python 在程序并行化方面多少有些声名狼藉。撇开技术上的问题，例如线程的实现和 GIL1，我觉得错误的教学指导才是主要问题。常见的... 阅读全文

posted @ 2015-09-03 21:11 Vincent.Cai2010 阅读(3855) 评论(0) 推荐(0)

2015年8月31日

Hive SQL的编译过程

摘要：转自: http://tech.meituan.com/hive-sql-to-mapreduce.html （美团技术团队） Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的Hive ETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中，我们遇到... 阅读全文

posted @ 2015-08-31 22:27 Vincent.Cai2010 阅读(183) 评论(0) 推荐(0)