摘要:
不多说,直接上干货! http://blog.csdn.net/lookqlp/article/details/51438109 阅读全文
摘要:
不多说,直接上干货! http://blog.csdn.net/lookqlp/article/details/51416829 阅读全文
摘要:
不多说,直接上干货! http://blog.csdn.net/lookqlp/article/details/70858466 阅读全文
摘要:
不多说,直接上干货! http://blog.csdn.net/lovebyz/article/details/77372907 阅读全文
摘要:
不多说,直接上干货! 阅读全文
摘要:
不多说,直接上干货! 阅读全文
摘要:
不多说,直接上干货! Kudu安装前的建议说明(博主推荐) 这是安装Kudu的另一种方法 Kudu安装(官网推荐的步骤)(installing Kudu using parcels or packages) Build From Source If installing Kudu using par 阅读全文
摘要:
不多说,直接上干货! Kudu安装前的建议说明(博主推荐) Kudu官网推荐的步骤: 本篇博文是installing Kudu using parcels or packages的方式。 规划 kudumaster kudu-tserver master 是 是 slave1 否 是 slave2 阅读全文
摘要:
不多说,直接上干货! 能点击进来看我写的这篇博文的朋友,肯定是刚入门的你。 其实以下是我从官网翻译过来的。 硬件: 一台或者多台机器跑kudu-master。建议跑一个master(无容错机制)、三个master(允许一个节点运行出错)或者五个master(允许两个节点出错)。 一台或者多台机器跑k 阅读全文
摘要:
不多说,直接上干货! Columnar Data Store(列式数据存储) Kudu 是一个 columnar data store(列式数据存储)。列式数据存储在强类型列中。由于几个原因,通过适当的设计,Kudu 对 analytical(分析)或 warehousing(数据仓库)工作会非常出 阅读全文
摘要:
不多说,直接上干货! Kudu-Impala 集成特性 CREATE / ALTER / DROP TABLE Impala 支持使用 Kudu 作为持久层来 creating(创建),altering(修改)和 dropping(删除)表。这些表遵循与 Impala 中其他表格相同的 Intern 阅读全文
摘要:
不多说,直接上干货! Kudu 常见的几个应用场景 实时更新的应用。刚刚到达的数据就马上要被终端用户使用访问到。 时间序列相关的应用,需要同时支持: 根据海量历史数据查询。 必须非常快地返回关于单个实体的细粒度查询。 实时预测模型的应用,支持根据所有历史数据周期地更新模型。 有关这些和其他方案的更多 阅读全文
摘要:
不多说,直接上干货! Kudu目前具有以下优点 OLAP 工作的快速处理; 与 MapReduce,Spark 和其他 Hadoop 生态系统组件集成; 与 Apache Impala(incubating)紧密集成,使其与 Apache Parquet 一起使用 HDFS 成为一个很好的可变的替代 阅读全文
摘要:
不多说,直接上干货! Kudu的性能测试 1. kudu和parquet的比较 上图是官方给出的用Impala跑TPC-H的测试,对比Parquet和Kudu的计算速度。从图中我们可以发现,Kudu的速度和parquet的速度差距不大,甚至有些Query比parquet还快。然而,由于这些数据都是在 阅读全文
摘要:
不多说,直接上干货! Kudu的架构 1、kudu的 基本框架 Kudu 是用于存储结构化( structured )的表( Table )。表有预定义的带类型的列( Columns ),每张表有一个主键( primary key )。主键带有唯一性( uniqueness )限制,可作为索引用来支 阅读全文
摘要:
不多说,直接上干货! Kudu和HBase定位的区别 Kudu 的定位是提供 “ast analytics on fast data” ,也就是在快速更新的数据上进行快速的查询。它定位 OLAP 和少量的 OLTP 工作流。 如果有大量的 random accesses ,官方建议还是使用 HBas 阅读全文
摘要:
不多说,直接上干货! 那既然有了HBase,为什么还需要Kudu呢? 简单的说,就是嫌弃HBase在OLAP(联机分析处理)场合,SQL/MR类的批量检索场景中,性能不够好。通常这种海量数据OLAP场景,要不走预处理的路,比如像EBAY麒麟这样走Cube管理的,或者像谷歌Mesa这样按业务需求走预定 阅读全文
摘要:
不多说,直接上干货! Cloudera Kudu是什么? kudu是cloudera在2012开始秘密研发的一款介于hdfs和hbase之间的高速分布式列式存储数据库。兼具了hbase的实时性、hdfs的高吞吐,以及传统数据库的sql支持。作为一款实时、离线之间的存储系统。定位和spark在计算系统 阅读全文
摘要:
不多说,直接上干货! DateDistance.java 当然,我们可以进一步,将其放到一个时间的工具类去。 java编程如何实现多条2017-08-08 22:10:00.0这样的时间数据,相差多少天?(隔24小时为相差1天,否则为0天) java编程如何实现多条2017-01-16 22:28: 阅读全文