摘要:
[Toc] 数据仓库 一、什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 阅读全文
摘要:
一、 "Hive基本概念" 二、 "Hive安装环境准备" 三、 "Hive数据类型" 四、 "DDL数据定义" 五、 "DML数据操作" 六、 "查询" 七、 "函数" 八、 "压缩和存储" 九、 "企业级调优" 十、 "数据仓库" 阅读全文
摘要:
[Toc] 企业级调优 一、Fetch抓取 Fetch抓取是指, Hive中对某些情况的查询可以不必使用MapReduce计算。 例如:SELECT FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive de 阅读全文
摘要:
[Toc] 函数 一、系统自带函数 1)查看系统自带的函数 2)显示自带的函数的用法 3)详细显示自带的函数的用法 二、自定义函数 1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。 2)当Hive提供的内置函数无法满足你的业务处理需要时,此时 阅读全文
摘要:
[Toc] 查询 一、基本查询 1、全表和特定列查询 1)全表查询 2)选择特定列查询 注意: (1)SQL 语言大小写不敏感。 (2)SQL 可以写在一行或者多行 (3)关键字不能被缩写也不能分行 (4)各子句一般要分行写。 (5)使用缩进提高语句的可读性。 2、列别名 1)重命名一个列。 2)便 阅读全文
摘要:
[Toc] DML数据操作 一、数据导入 1、向表中装载数据(Load) 1)语法 2)实操案例 (1)创建一张表 (2)加载本地文件到hive (3)加载HDFS文件到hive中 (4)加载数据覆盖表中已有的数据 2、通过查询语句向表中插入数据(Insert) 1)创建一张分区表 2)基本插入数据 阅读全文
摘要:
[Toc] 数据定义 一、创建数据库 1、创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/ .db。 2、避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法) 3、创建一个数据库,指定数据库在HDFS上存放的位置 二、修改数据库 阅读全文
摘要:
[Toc] Hive数据类型 一、基本数据类型 Hive数据类型 | Java数据类型 | 长度 | 例子 | | | TINYINT | byte | 1byte有符号整数 | 20 SMALINT | short | 2byte有符号整数 | 20 INT | int | 4byte有符号整数 阅读全文
摘要:
[Toc] 一、基础练习 练习一:翻倍列表中的数值并排序列表,并选出其中大于等于10的元素。 练习二:将字符数组里面的每一个元素先切分在压平。 练习三:求两个列表中的交集、并集、及去重后的结果 练习四:对List列表中的kv对进行join与union操作 练习五:cogroup与groupByKey 阅读全文
摘要:
[Toc] 一、基本介绍 介绍 QR Code码是由日本于1994年9月研制的一 种矩阵二维码符号,它具有一维条码及其它二 维条码所具有的信息容量大、可靠性高、可表示汉字及图象多种文字信息、保密防伪性强等优点。 qrcode模块是Github_上的一 个开源项目,提供了生成二维码的接口。qrcode 阅读全文