摘要: Apache Kylin是一个开源的,分布式分析引擎,提供SQL接口和多维度分析,支持Hadoop的大数据,最早来自eBay的贡献。 Kylin需要你拥有Hadoop CLI的访问,在Hadoop CLI中,你可以对hdfs,hive,hbase和map-reduce的完全权限。为了使得事情简单,建 阅读全文
posted @ 2019-05-10 16:37 峰峰仔 阅读(280) 评论(0) 推荐(0) 编辑
摘要: Hive提供Hive Query language(HQL)用来进行数据操作 Hive查询提供下面的特性 数据模型,例如数据库和表的创建 ETL方法,例如提取,转变,加载数据到表里 join来合并不同的数据表 用户自定义的脚本 基于Hadoop快速查询工具 首先创建表 排序查询 分组查询 Sort 阅读全文
posted @ 2019-05-10 16:36 峰峰仔 阅读(555) 评论(0) 推荐(0) 编辑
摘要: 首先我们介绍下Hive中的数据类型 数值型类型 字符串类型 日期类型 复杂类型 数值型类型 TINY INT SMALL INT INT BIG INT FLOAT DOUBLE DECIMAL 字符串类型 CHAR VARCHAR STRING 日期类型 Timestamp Date 复杂类型 A 阅读全文
posted @ 2019-05-10 16:36 峰峰仔 阅读(477) 评论(0) 推荐(0) 编辑
摘要: 1. 介绍 Apache Hive可以使用SQL来读,写,管理分布式存储的大数据集,结构可以投射到已经存储的数据上,命令行工具和JDBC驱动可以让用户连接到Hive。 2. 安装和配置 你可以下载Hive的稳定版本或者下载源码,自己编译Hive 必要: Java1.7(Hive 1.2需要java1 阅读全文
posted @ 2019-05-10 16:36 峰峰仔 阅读(1630) 评论(0) 推荐(0) 编辑
摘要: Hive是基于Hadoop的ETL工具和数据仓库。 结构化数据 结构化数据就像RDBMS 半结构化的数据,例如:json,xml 什么时候使用Hive 当需要强大的统计方法的时候 当要处理结构化或者半结构化数据 当需要基于Hadoop的数据仓库 可以于Hbase结合 Hive用在什么地方 作为ETL 阅读全文
posted @ 2019-05-10 16:35 峰峰仔 阅读(2373) 评论(0) 推荐(0) 编辑
摘要: 介绍 使用Java实现一个int值类型的排序二叉树 二叉树 二叉树是一个递归的数据结构,每个节点最多有两个子节点。 通常二叉树是二分查找树,每个节点它的值大于或者等于在它左子树节点上的值,小于或者等于在它右子树节点上的值,如下图 为了实现二叉树,我们使用一个Node类来表示节点,节点存储int类型的 阅读全文
posted @ 2019-05-10 16:22 峰峰仔 阅读(11353) 评论(1) 推荐(3) 编辑