Hadoop - 随笔分类 - 扎心了，老铁

Azkaban学习之路（三）Azkaban的使用

摘要：界面介绍首页有四个菜单 projects：最重要的部分，创建一个工程，所有flows将在工程中运行。 scheduling:显示定时任务 executing:显示当前运行的任务 history:显示历史运行任务介绍projects部分概念介绍创建工程：创建之前我们先了解下之间的关系，一个工程阅读全文

posted @ 2018-04-15 15:58 扎心了，老铁阅读(29174) 评论(3) 推荐(8) 编辑

Azkaban学习之路（二）Azkaban的安装

摘要：安装过程 1、软件介绍 Azkaban Web 服务器：azkaban-web-server-2.5.0.tar.gz Azkaban Excutor 执行服务器：azkaban-executor-server-2.5.0.tar.gz Azkaban 初始化脚本文件：azkaban-sql-scr 阅读全文

posted @ 2018-04-15 15:53 扎心了，老铁阅读(7542) 评论(0) 推荐(1) 编辑

Azkaban学习之路（一）Azkaban的基础介绍

摘要：一、为什么需要工作流调度器 1、一个完整的数据分析系统通常都是由大量任务单元组成： shell 脚本程序，java 程序，mapreduce 程序、hive 脚本等 2、各任务单元之间存在时间先后及前后依赖关系 3、为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行例如，我们可能阅读全文

posted @ 2018-04-15 15:51 扎心了，老铁阅读(10978) 评论(2) 推荐(3) 编辑

Sqoop学习之路（一）

摘要：一、概述 sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。核心的功能有两个：导入、迁入导出、迁出导入数据：MySQL，Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统导出数据：从 Hadoop 的文件系阅读全文

posted @ 2018-04-15 15:48 扎心了，老铁阅读(82549) 评论(8) 推荐(17) 编辑

Hive学习之路（二十一）Hive 优化策略

摘要：一、Hadoop 框架计算特性 1、数据量大不是问题，数据倾斜是个问题 2、jobs 数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个 jobs，耗时很长。原因是 map reduce 作业初始化的时间是比较长的 3、sum,count,max,min 等阅读全文

posted @ 2018-04-15 15:46 扎心了，老铁阅读(19770) 评论(3) 推荐(12) 编辑

Hive学习之路（二十）Hive 执行过程实例分析

摘要：一、Hive 执行过程概述 1、概述（1） Hive 将 HQL 转换成一组操作符（Operator），比如 GroupByOperator, JoinOperator 等（2）操作符 Operator 是 Hive 的最小处理单元（3）每个操作符代表一个 HDFS 操作或者 MapReduc 阅读全文

posted @ 2018-04-15 15:44 扎心了，老铁阅读(11497) 评论(2) 推荐(5) 编辑

Hive学习之路（十九）Hive的数据倾斜

摘要：1、什么是数据倾斜？由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点 2、Hadoop 框架的特性 A、不怕数据大，怕数据倾斜 B、Jobs 数比较多的作业运行效率相对比较低，如子查询比较多 C、 sum,count,max,min 等聚集函数，通常不会有数据倾斜问题 3、主要表现任务阅读全文

posted @ 2018-04-15 15:41 扎心了，老铁阅读(33333) 评论(2) 推荐(4) 编辑

Hive学习之路（十八）Hive的Shell操作

摘要：一、Hive的命令行 1、Hive支持的一些命令 Command Description quit Use quit or exit to leave the interactive shell. set key=value Use this to set value of particular c 阅读全文

posted @ 2018-04-15 15:40 扎心了，老铁阅读(15157) 评论(0) 推荐(0) 编辑

Hive学习之路（十七）Hive分析窗口函数(五) GROUPING SETS、GROUPING__ID、CUBE和ROLLUP

摘要：概述 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中，不能累加，而且需要根据不同维度上钻和下钻的指标统计，比如，分小时、天、月的UV数。数据准备数据格式创建表玩一玩GROUPING SETS和GROUPING__ID 说明在一阅读全文

posted @ 2018-04-15 15:37 扎心了，老铁阅读(15243) 评论(1) 推荐(4) 编辑

Hive学习之路（十六）Hive分析窗口函数(四) LAG、LEAD、FIRST_VALUE和LAST_VALUE

摘要：数据准备数据格式 cookie4.txt 创建表玩一玩LAG 说明 LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值第一个参数为列名，第二个参数为往上第n行（可选，默认为1），第三个参数为默认值（当往上第n行为NULL时候，取默认值，如不指定，则为NULL）查询语句查询结果阅读全文

posted @ 2018-04-15 15:33 扎心了，老铁阅读(33938) 评论(1) 推荐(5) 编辑

Hive学习之路（十五）Hive分析窗口函数(三) CUME_DIST和PERCENT_RANK

摘要：这两个序列分析函数不是很常用，这里也练习一下。数据准备数据格式 cookie3.txt 创建表玩一玩CUME_DIST 说明 –CUME_DIST ：小于等于当前值的行数/分组内总行数查询语句比如，统计小于等于当前薪水的人数，所占总人数的比例查询结果结果说明玩一玩PERCENT_RA 阅读全文

posted @ 2018-04-11 20:13 扎心了，老铁阅读(10817) 评论(0) 推荐(0) 编辑

Hive学习之路（十四）Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK

摘要：概述本文中介绍前几个序列函数，NTILE,ROW_NUMBER,RANK,DENSE_RANK，下面会一一解释各自的用途。注意：序列函数不支持WINDOW子句。（ROWS BETWEEN）数据准备数据格式创建表玩一玩NTILE 说明 NTILE(n)，用于将分组数据按照顺序切分成n片，阅读全文

posted @ 2018-04-11 19:43 扎心了，老铁阅读(11377) 评论(0) 推荐(1) 编辑

Hive学习之路（十三）Hive分析窗口函数(一) SUM,AVG,MIN,MAX

摘要：数据准备数据格式创建数据库及表玩一玩SUM 查询语句查询结果说明如果不指定ROWS BETWEEN,默认为从起点到当前行;如果不指定ORDER BY，则将分组内所有值累加;关键是理解ROWS BETWEEN含义,也叫做WINDOW子句：PRECEDING：往前FOLLOWING：往后CU 阅读全文

posted @ 2018-04-10 21:43 扎心了，老铁阅读(25973) 评论(1) 推荐(1) 编辑

Hive学习之路（十二）Hive SQL练习之影评案例

摘要：案例说明现有如此三份数据：1、users.dat 数据格式为： 2::M::56::16::70072，共有6040条数据对应字段为：UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释：阅读全文

posted @ 2018-04-10 21:41 扎心了，老铁阅读(23157) 评论(10) 推荐(6) 编辑

Hive学习之路（十一）Hive的5个面试题

摘要：一、求单月访问次数和总访问次数 1、数据说明数据字段说明数据格式 2、数据准备（1）创建表（2）导入数据（3）验证数据 3、结果需求现要求出：每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数，结果数据格式如下 4、需求分析此结果需要根据用户+月份进行分组（1）先求出当阅读全文

posted @ 2018-04-10 21:40 扎心了，老铁阅读(49296) 评论(18) 推荐(11) 编辑

Hive学习之路（十）Hive的高级操作

摘要：一、负责数据类型 1、array 现有数据如下： 1 huangbo guangzhou,xianggang,shenzhen a1:30,a2:20,a3:100 beijing,112233,13522334455,5002 xuzheng xianggang b2:50,b3:40 tianj 阅读全文

posted @ 2018-04-10 21:35 扎心了，老铁阅读(23463) 评论(4) 推荐(9) 编辑

Hive学习之路（九）Hive的内置函数

摘要：数学函数 Return Type Return Type Name (Signature) Name (Signature) Description Description DOUBLE round(DOUBLE a) Returns the rounded BIGINT value of a. 返阅读全文

posted @ 2018-04-08 17:09 扎心了，老铁阅读(25019) 评论(1) 推荐(5) 编辑

Hive学习之路（八）Hive中文乱码

摘要：Hive注释中文乱码创建表的时候，comment说明字段包含中文，表成功创建成功之后，中文说明显示乱码这是因为在MySQL中的元数据出现乱码针对元数据库metastore中的表,分区,视图的编码设置因为我们知道 metastore 支持数据库级别，表级别的字符集是 latin1 那么我们只需阅读全文

posted @ 2018-04-07 17:25 扎心了，老铁阅读(37661) 评论(1) 推荐(7) 编辑

Hive学习之路（七）Hive的DDL操作

摘要：库操作 1、创建库语法结构 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] //关于数据块的描述 [LOCATION hdfs_path] //指定数据库在HDFS上的存储位置 [W 阅读全文

posted @ 2018-04-07 17:24 扎心了，老铁阅读(29982) 评论(8) 推荐(11) 编辑

Hive学习之路（六）Hive SQL之数据类型和存储格式

摘要：一、数据类型 1、基本数据类型 Hive 支持关系型数据中大多数基本数据类型和其他的SQL语言一样，这些都是保留字。需要注意的是所有的这些数据类型都是对Java中接口的实现，因此这些类型的具体行为细节和Java中对应的类型是完全一致的。例如，string类型实现的是Java中的String，flo 阅读全文

posted @ 2018-04-07 17:22 扎心了，老铁阅读(27030) 评论(2) 推荐(5) 编辑

扎心了，老铁

随笔分类 - Hadoop

公告