摘要: 界面介绍 首页有四个菜单 projects:最重要的部分,创建一个工程,所有flows将在工程中运行。 scheduling:显示定时任务 executing:显示当前运行的任务 history:显示历史运行任务 介绍projects部分 概念介绍 创建工程:创建之前我们先了解下之间的关系,一个工程 阅读全文
posted @ 2018-04-15 15:58 扎心了,老铁 阅读(29174) 评论(3) 推荐(8) 编辑
摘要: 安装过程 1、软件介绍 Azkaban Web 服务器:azkaban-web-server-2.5.0.tar.gz Azkaban Excutor 执行服务器:azkaban-executor-server-2.5.0.tar.gz Azkaban 初始化脚本文件:azkaban-sql-scr 阅读全文
posted @ 2018-04-15 15:53 扎心了,老铁 阅读(7542) 评论(0) 推荐(1) 编辑
摘要: 一、为什么需要工作流调度器 1、一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等 2、各任务单元之间存在时间先后及前后依赖关系 3、为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行 例如,我们可能 阅读全文
posted @ 2018-04-15 15:51 扎心了,老铁 阅读(10978) 评论(2) 推荐(3) 编辑
摘要: 一、概述 sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。 核心的功能有两个: 导入、迁入 导出、迁出 导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统 导出数据:从 Hadoop 的文件系 阅读全文
posted @ 2018-04-15 15:48 扎心了,老铁 阅读(82549) 评论(8) 推荐(17) 编辑
摘要: 一、Hadoop 框架计算特性 1、数据量大不是问题,数据倾斜是个问题 2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的 3、sum,count,max,min 等 阅读全文
posted @ 2018-04-15 15:46 扎心了,老铁 阅读(19769) 评论(3) 推荐(12) 编辑
摘要: 一、Hive 执行过程概述 1、概述 (1) Hive 将 HQL 转换成一组操作符(Operator),比如 GroupByOperator, JoinOperator 等 (2)操作符 Operator 是 Hive 的最小处理单元 (3)每个操作符代表一个 HDFS 操作或者 MapReduc 阅读全文
posted @ 2018-04-15 15:44 扎心了,老铁 阅读(11497) 评论(2) 推荐(5) 编辑
摘要: 1、什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 2、Hadoop 框架的特性 A、不怕数据大,怕数据倾斜 B、Jobs 数比较多的作业运行效率相对比较低,如子查询比较多 C、 sum,count,max,min 等聚集函数,通常不会有数据倾斜问题 3、主要表现 任务 阅读全文
posted @ 2018-04-15 15:41 扎心了,老铁 阅读(33331) 评论(2) 推荐(4) 编辑
摘要: 一、Hive的命令行 1、Hive支持的一些命令 Command Description quit Use quit or exit to leave the interactive shell. set key=value Use this to set value of particular c 阅读全文
posted @ 2018-04-15 15:40 扎心了,老铁 阅读(15157) 评论(0) 推荐(0) 编辑
摘要: 概述 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。 数据准备 数据格式 创建表 玩一玩GROUPING SETS和GROUPING__ID 说明 在一 阅读全文
posted @ 2018-04-15 15:37 扎心了,老铁 阅读(15242) 评论(1) 推荐(4) 编辑
摘要: 数据准备 数据格式 cookie4.txt 创建表 玩一玩LAG 说明 LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值 第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL) 查询语句 查询结果 阅读全文
posted @ 2018-04-15 15:33 扎心了,老铁 阅读(33936) 评论(1) 推荐(5) 编辑