摘要: Parquet 是面向分析型业务的列式存储格式,由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 的孵化器里毕业成为 Apache 顶级项目,最新的版本是 1.8.0。 列式存储 列式存储和行式存储相比有哪些优势呢? 当时 Twitter 的日增数据量达到压缩 阅读全文
posted @ 2018-12-19 17:13 piperck 阅读(568) 评论(0) 推荐(0) 编辑
摘要: 上个月参加了一个云存储的技术讨论会。这一个月里,陆续收到几位同学讨论大数据保存和处理的邮件。今天是周末,索性把这个月的交流内容整理写下来,供各位参考。 目前大数据存储有两种方案可供选择:行存储和列存储。业界对两种存储方案有很多争持,集中焦点是: 谁能够更有效地处理海量数据,且兼顾安全、可靠、完整性。 阅读全文
posted @ 2018-12-19 11:23 piperck 阅读(631) 评论(0) 推荐(0) 编辑