随笔分类 - Kudu(一款介于hdfs和hbase之间的高速分布式列式存储数据库)
摘要:不多说,直接上干货! Kudu1.1.0 新特性 优化和改进 工具 兼容性 参考 https://github.com/cloudera/kudu/blob/master/docs/prior_release_notes.adoc 个人github https://github.com/qiulp/
阅读全文
摘要:不多说,直接上干货! http://blog.csdn.net/lookqlp/article/details/51438109
阅读全文
摘要:不多说,直接上干货! http://blog.csdn.net/lookqlp/article/details/51416829
阅读全文
摘要:不多说,直接上干货! http://blog.csdn.net/lookqlp/article/details/70858466
阅读全文
摘要:不多说,直接上干货! http://blog.csdn.net/lovebyz/article/details/77372907
阅读全文
摘要:不多说,直接上干货!
阅读全文
摘要:不多说,直接上干货!
阅读全文
摘要:不多说,直接上干货! Kudu安装前的建议说明(博主推荐) 这是安装Kudu的另一种方法 Kudu安装(官网推荐的步骤)(installing Kudu using parcels or packages) Build From Source If installing Kudu using par
阅读全文
摘要:不多说,直接上干货! Kudu安装前的建议说明(博主推荐) Kudu官网推荐的步骤: 本篇博文是installing Kudu using parcels or packages的方式。 规划 kudumaster kudu-tserver master 是 是 slave1 否 是 slave2
阅读全文
摘要:不多说,直接上干货! 能点击进来看我写的这篇博文的朋友,肯定是刚入门的你。 其实以下是我从官网翻译过来的。 硬件: 一台或者多台机器跑kudu-master。建议跑一个master(无容错机制)、三个master(允许一个节点运行出错)或者五个master(允许两个节点出错)。 一台或者多台机器跑k
阅读全文
摘要:不多说,直接上干货! Columnar Data Store(列式数据存储) Kudu 是一个 columnar data store(列式数据存储)。列式数据存储在强类型列中。由于几个原因,通过适当的设计,Kudu 对 analytical(分析)或 warehousing(数据仓库)工作会非常出
阅读全文
摘要:不多说,直接上干货! Kudu-Impala 集成特性 CREATE / ALTER / DROP TABLE Impala 支持使用 Kudu 作为持久层来 creating(创建),altering(修改)和 dropping(删除)表。这些表遵循与 Impala 中其他表格相同的 Intern
阅读全文
摘要:不多说,直接上干货! Kudu 常见的几个应用场景 实时更新的应用。刚刚到达的数据就马上要被终端用户使用访问到。 时间序列相关的应用,需要同时支持: 根据海量历史数据查询。 必须非常快地返回关于单个实体的细粒度查询。 实时预测模型的应用,支持根据所有历史数据周期地更新模型。 有关这些和其他方案的更多
阅读全文
摘要:不多说,直接上干货! Kudu目前具有以下优点 OLAP 工作的快速处理; 与 MapReduce,Spark 和其他 Hadoop 生态系统组件集成; 与 Apache Impala(incubating)紧密集成,使其与 Apache Parquet 一起使用 HDFS 成为一个很好的可变的替代
阅读全文
摘要:不多说,直接上干货! Kudu的性能测试 1. kudu和parquet的比较 上图是官方给出的用Impala跑TPC-H的测试,对比Parquet和Kudu的计算速度。从图中我们可以发现,Kudu的速度和parquet的速度差距不大,甚至有些Query比parquet还快。然而,由于这些数据都是在
阅读全文
摘要:不多说,直接上干货! Kudu的架构 1、kudu的 基本框架 Kudu 是用于存储结构化( structured )的表( Table )。表有预定义的带类型的列( Columns ),每张表有一个主键( primary key )。主键带有唯一性( uniqueness )限制,可作为索引用来支
阅读全文
摘要:不多说,直接上干货! Kudu和HBase定位的区别 Kudu 的定位是提供 “ast analytics on fast data” ,也就是在快速更新的数据上进行快速的查询。它定位 OLAP 和少量的 OLTP 工作流。 如果有大量的 random accesses ,官方建议还是使用 HBas
阅读全文
摘要:不多说,直接上干货! 那既然有了HBase,为什么还需要Kudu呢? 简单的说,就是嫌弃HBase在OLAP(联机分析处理)场合,SQL/MR类的批量检索场景中,性能不够好。通常这种海量数据OLAP场景,要不走预处理的路,比如像EBAY麒麟这样走Cube管理的,或者像谷歌Mesa这样按业务需求走预定
阅读全文
摘要:不多说,直接上干货! Cloudera Kudu是什么? kudu是cloudera在2012开始秘密研发的一款介于hdfs和hbase之间的高速分布式列式存储数据库。兼具了hbase的实时性、hdfs的高吞吐,以及传统数据库的sql支持。作为一款实时、离线之间的存储系统。定位和spark在计算系统
阅读全文