摘要:
安装Hive 把apache-hive-3.1.2-bin.tar.gz上传到linux的/opt/software目录下 解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面 [user@hadoop102 software]$ tar -zxvf /op 阅读全文
摘要:
ETL概念 将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程 ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成, 最后加载到数据仓库或数据集市中,成为联机分析处理、 数据挖掘的基础 数据抽取 全 阅读全文
摘要:
概念 定义 针对数据仓库设计中表存储数据的方式而定义的,设计表的时候添加start_date和end_date两个字段,数据更新时,通过修改end_date来设置数据的有效时间 所谓拉链,就是记录历史,记录一个事物从开始一直到当前状态的所有变化的信息 可以使用这张表拿到最新的当天的最新数据以及之前的 阅读全文
摘要:
数仓建模的好处 好的数据仓库能够支持复杂数据分析和决策,能够提供高性能查询,能够做到数据的通用集成和保持数据的一致性,可以说得上是面向业务分析的数据库 数仓功能本质就是通过建模来达成对复杂业务的抽象,清晰准确完整的刻画业务场景,以便用户通过业务视角便捷的获取所需数据,完成对业务活动的度量 案例一 零 阅读全文
摘要:
数据仓库概念 可以把数据仓库认为是一个国道汇总到高速的一个高速中转站,负责收集这些不同地方来源的数据,统一归纳整理好再放到高速上去用,达到高效数据中转的效果 数据仓库的目的就是为了统筹集中所有可以使用的数据,构建面向分析的集成数据环境,通过最终数据分析结果为企业提供决策导向支持 对于整个数据仓库而言 阅读全文
摘要:
分区表 分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件 Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集 在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率 会提高很多 分区表基本操作 引入分区表 dep 阅读全文
摘要:
概念 什么是JSON JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人阅读和编写,同时也易于机器解析和生成 JSON是存储和交换文本信息的语法,类似XML JSON比XML更小、更快,更易解析 JSON语法 数据在名称/值对中 数据由,分开 使用斜杠 阅读全文
摘要:
Hive常用函数 字符串函数 返回值 函数 描述 string concat(string/binary A, string/binary B…) 对二进制字节码或字符串按次序进行拼接 int instr(string str, string substr) 查找字符串str中子字符串substr出 阅读全文
摘要:
Impala常用函数语法 Impala是基于Hadoop的一种高性能分布式SQL查询引擎,它支持使用SQL语言对大规模数据进行分析和查询 数学函数 函数 说明 举例 ABS(x) 绝对值函数,返回一个数的绝对值 SELECT ABS(-10) AS result; CEIL(x) 向上取整函数,返回 阅读全文
摘要:
聚合表 建表时可以定义聚合键并且为value列指定聚合函数,当多条数据具有相同的聚合键时,value列会进行聚合 适用场景 适用于分析统计和汇总数据,例如: 通过分析网站或APP的访问流量,统计用户的访问总时长、访问总次数 广告厂商为广告主提供的广告点击总量、展示总量、消费统计等 通过分析电商的全年 阅读全文