摘要: 一,DDL操作 1,创建表 创建内部表 创建内部表 创建分区表 分表就是在加入数据前,对表进行相应需求的分开存储。 创建分桶表 对于每一个表或者是分区,Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive是针对某一列进行分桶。Hive采用对列值哈希,然后除以桶的个数求余的方式决 阅读全文
posted @ 2018-10-23 21:20 薄点 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 一,概述 1,hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件(hdfs)映射为数据库表,并提供类sql查询功能。说白了,hive就是MapReduce客户端,对MapReduce的一个封装,将用户编写的HQL语法转换成MR程序进行执行。 2,hive特点: a)可扩展性:Hiv 阅读全文
posted @ 2018-10-23 16:31 薄点 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 一,概述 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 它有如下功能特点: Web用户界面。 方便上传工作 阅读全文
posted @ 2018-10-23 10:12 薄点 阅读(195) 评论(0) 推荐(0) 编辑