2019 年 5月 10 日随笔档案 - 峰峰仔

2019年5月10日

摘要： Apache Kylin是一个开源的，分布式分析引擎，提供SQL接口和多维度分析，支持Hadoop的大数据，最早来自eBay的贡献。 Kylin需要你拥有Hadoop CLI的访问，在Hadoop CLI中，你可以对hdfs，hive，hbase和map-reduce的完全权限。为了使得事情简单，建阅读全文

posted @ 2019-05-10 16:37 峰峰仔阅读(280) 评论(0) 推荐(0) 编辑

Hive查询

摘要： Hive提供Hive Query language(HQL)用来进行数据操作 Hive查询提供下面的特性数据模型，例如数据库和表的创建 ETL方法，例如提取，转变，加载数据到表里 join来合并不同的数据表用户自定义的脚本基于Hadoop快速查询工具首先创建表排序查询分组查询 Sort 阅读全文

posted @ 2019-05-10 16:36 峰峰仔阅读(555) 评论(0) 推荐(0) 编辑

Hive数据操作

摘要：首先我们介绍下Hive中的数据类型数值型类型字符串类型日期类型复杂类型数值型类型 TINY INT SMALL INT INT BIG INT FLOAT DOUBLE DECIMAL 字符串类型 CHAR VARCHAR STRING 日期类型 Timestamp Date 复杂类型 A 阅读全文

posted @ 2019-05-10 16:36 峰峰仔阅读(477) 评论(0) 推荐(0) 编辑

Hive教程(1)

摘要： 1. 介绍 Apache Hive可以使用SQL来读，写，管理分布式存储的大数据集，结构可以投射到已经存储的数据上，命令行工具和JDBC驱动可以让用户连接到Hive。 2. 安装和配置你可以下载Hive的稳定版本或者下载源码，自己编译Hive 必要： Java1.7(Hive 1.2需要java1 阅读全文

posted @ 2019-05-10 16:36 峰峰仔阅读(1630) 评论(0) 推荐(0) 编辑

Hive数据提取

摘要： Hive是基于Hadoop的ETL工具和数据仓库。结构化数据结构化数据就像RDBMS 半结构化的数据，例如：json，xml 什么时候使用Hive 当需要强大的统计方法的时候当要处理结构化或者半结构化数据当需要基于Hadoop的数据仓库可以于Hbase结合 Hive用在什么地方作为ETL 阅读全文

posted @ 2019-05-10 16:35 峰峰仔阅读(2373) 评论(0) 推荐(0) 编辑

用Java实现一个二叉树

摘要：介绍使用Java实现一个int值类型的排序二叉树二叉树二叉树是一个递归的数据结构，每个节点最多有两个子节点。通常二叉树是二分查找树，每个节点它的值大于或者等于在它左子树节点上的值，小于或者等于在它右子树节点上的值，如下图为了实现二叉树，我们使用一个Node类来表示节点，节点存储int类型的阅读全文

posted @ 2019-05-10 16:22 峰峰仔阅读(11353) 评论(1) 推荐(3) 编辑

峰峰仔

公告