摘要: 转载自董的博客 相比传统的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐(注:列式存储不是万能高效的,很多场景下行式存储仍更加高效),尤其是在数据列(column)数很多,但每次操作仅针对若干列的情景,列式存储引擎的性价比更高。 在互联网大数据应用场景下,大部分情况下,数据量很大且数据字段数目很多,但每次查询数据只针对其中的少数几行,这时候列式存储是极佳的选择,目前在开... 阅读全文
posted @ 2015-09-05 17:03 Vincent.Cai2010 阅读(2010) 评论(0) 推荐(0) 编辑
摘要: 转自: http://www.searchdatabase.com.cn/showcontent_61985.htm 最早的商业列式数据库是在1995年发布的Sybase IQ,但是一直到1999年左右才慢慢稳定到能够投入生产环境。现在的大多数分析型数据库都是在2003-2005年从Postgresql 分支出来的。其中尤其是Vertica 为代表的列数据库已经在大规模数据仓库环境中证明其特别... 阅读全文
posted @ 2015-09-05 16:39 Vincent.Cai2010 阅读(1221) 评论(0) 推荐(0) 编辑
摘要: 转自: http://confluent.io/blog/stream-data-platform-2 http://www.infoq.com/cn/news/2015/03/apache-kafka-stream-data-advice/ 在《流数据平台构建实战指南》第一部分中,Confluent联合创始人Jay Kreps介绍了如何构建一个公司范围的实时流数据中心。... 阅读全文
posted @ 2015-09-05 15:35 Vincent.Cai2010 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 转自: http://www.confluent.io/blog/stream-data-platform-1/ These days you hear a lot about "stream processing", "event data", and "real-time", often related to technologies like Kafka, Storm, Samza, or... 阅读全文
posted @ 2015-09-05 15:32 Vincent.Cai2010 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 转自: http://blog.csdn.net/kevin_hx001/article/details/9413565 http://kafka.apache.org/design.html 我们为什么要构建这个系统 Kafka是一个分布式、分区的、多副本的、多订阅者的“提交”日志系统。 我们构建这个系统是因为我们认为,一个实现完好的操作日志系统是一个最基本的基础设施,它可... 阅读全文
posted @ 2015-09-05 13:14 Vincent.Cai2010 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 转自: http://blog.csdn.net/dc_726/article/details/41552593 目录(?)[-] 问题1不同任务或框架间交换数据慢 问题2执行引擎和存储引擎是同一进程 问题3数据被重复加载和GC Tachyon如何容错 参考资料 UCBerkeley研发的Tachyon(超光子['tækiːˌɒn],名字要不要这么太嚣张啊:... 阅读全文
posted @ 2015-09-05 12:56 Vincent.Cai2010 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 转自: http://www.csdn.net/article/2015-06-25/2825056 摘要:Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率。 Tachyon是Spark生态系统内快速崛起的一个新项目。 本质上, Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了... 阅读全文
posted @ 2015-09-05 12:53 Vincent.Cai2010 阅读(182) 评论(0) 推荐(0) 编辑
摘要: Python GC主要使用引用计数(reference counting)来跟踪和回收垃圾。在引用计数的基础上,通过“标记-清除”(mark and sweep)解决容器对象可能产生的循环引用问题,通过“分代回收”(generation collection)以空间换时间的方法提高垃圾回收效率。发现有网友的博文已经比较清楚得阐述了这个问题,特此记录。 http://hbprotoss.githu... 阅读全文
posted @ 2015-09-03 23:28 Vincent.Cai2010 阅读(189) 评论(0) 推荐(0) 编辑
摘要: 转自: http://www.zhangzhibo.net/2014/02/01/parallelism-in-one-line/ http://chriskiehl.com/article/parallelism-in-one-line/ Python 在程序并行化方面多少有些声名狼藉。撇开技术上的问题,例如线程的实现和 GIL1,我觉得错误的教学指导才是主要问题。常见的... 阅读全文
posted @ 2015-09-03 21:11 Vincent.Cai2010 阅读(3825) 评论(0) 推荐(0) 编辑
摘要: 转自: http://tech.meituan.com/hive-sql-to-mapreduce.html (美团技术团队) Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。 在几次升级Hive的过程中,我们遇到... 阅读全文
posted @ 2015-08-31 22:27 Vincent.Cai2010 阅读(165) 评论(0) 推荐(0) 编辑