2020年12月27日

Hive-排序方式

摘要: Hive-排序方式 order by 会对查询的结果做一次全局排序 所有的数据都会发送到同一个reducer进行处理,不管有多少map,也不管文件有多少block块,只会启动一个reducer,因为多个reducer无法保证全局有序 优点 全局有序 缺点 对大量数据进行排序耗时会比较长 sort b 阅读全文

posted @ 2020-12-27 20:21 嘣嘣嚓 阅读(150) 评论(0) 推荐(0) 编辑

Hive执行SQL步骤

摘要: Hive执行SQL步骤 执行查询 从Hive的CLI或WebUI发查询命令给驱动程序(任何JDBC、ODBC数据库驱动)执行 获得计划 驱动程序请求查询编辑器解析查询、检查语法、生成查询计划或者查询所需要的资源 获取元数据 编译器向元数据存储数据库发送元数据请求 发送元数据 作为响应,元数据存储数据 阅读全文

posted @ 2020-12-27 20:19 嘣嘣嚓 阅读(1001) 评论(0) 推荐(0) 编辑

Hive-分区、分桶

摘要: Hive-分区、分桶 分桶(bucket) 对某一列取哈希值,对桶的个数求模取余,根据余数决定该条记录进入哪一个桶 场景:小表关联大表时效果明显(Map Side Join),会把小表数据通过DistributedCache分发到各个Map Side,然后加载到内存和每一个Map任务处理的大表进行J 阅读全文

posted @ 2020-12-27 20:18 嘣嘣嚓 阅读(230) 评论(0) 推荐(0) 编辑

Hive-文件存储格式

摘要: Hive-文件格式 TEXTFILE 描述 TEXTFILE是普通的文本型文件,是Hadoop里最常用的输入输出格式,也是Hive的默认文件格式。 输入输出包 org.apache.hadoop.mapred.TextInputFormat org.apache.hadoop.mapred.Text 阅读全文

posted @ 2020-12-27 20:17 嘣嘣嚓 阅读(204) 评论(0) 推荐(0) 编辑

sqoop优化

摘要: sqoop优化 batch 语法:--batch,指示使用批处理模式执行底层的SQL语句。在导出数据时,该参数能够将相关的SQL语句组合在一起批量执行,也可以使用有效的API在JDBC接口中配置批处理参数 Dsqoop.export.records.per.statement 指定批处理数据条数,可 阅读全文

posted @ 2020-12-27 20:07 嘣嘣嚓 阅读(2074) 评论(0) 推荐(0) 编辑

数据仓库-数据集市

摘要: 数据仓库-数据集市 概念 数据集市是数据仓库的一种简单形式,通常由组织内的业务部门自己建立和控制。一个数据集市面向单一主题域,如销售、财务、市场等。数据集市的数据源可以是操作型系统(独立数据集市),也可以是企业级数据仓库(从属数据集市)。 与数仓区别 范围 数仓:企业级 数据集市:部门级或业务线 主 阅读全文

posted @ 2020-12-27 20:04 嘣嘣嚓 阅读(521) 评论(0) 推荐(0) 编辑

数据仓库-实施步骤

摘要: 数据仓库-实施步骤 定义范围 项目范围定义了一个数据仓库项目的边界。典型的范围定义是组织、地区、应用、业务功能的联合表示。 定义范围时通常需要权衡考虑资源(人员、系统、预算等)、进度(项目的时间和里程碑要求)、功能(数据仓库承诺达到的能力)三方面的因素。 定义好清晰明确的范围,并得到所有项目干系人的 阅读全文

posted @ 2020-12-27 20:00 嘣嘣嚓 阅读(584) 评论(0) 推荐(0) 编辑

数据仓库-数据清洗

摘要: 数据仓库-数据清洗 定义 ETL 抽取(Extract)、转换(Transform)、加载(Load) ETL的核心价值在"T"所代表的转换部分 数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性 为什么要进行数据清洗 数据仓库中的数据是面向某一主题数据 阅读全文

posted @ 2020-12-27 19:40 嘣嘣嚓 阅读(2234) 评论(0) 推荐(0) 编辑

数据仓库-维度模型(模型类型、建模过程)

摘要: 数据仓库-维度模型 描述 Dimensional Modeling,简称DM,是一套技术和概念的集合,用于数据仓库设计 核心概念 事实 表示对业务数据的度量 通常是数字类型的,可以进行聚合和计算 维度 对观察数据的角度 一组层次关系或描述信息,用来定义事实 举例:销售金额是一个事实,而销售时间、销售 阅读全文

posted @ 2020-12-27 17:40 嘣嘣嚓 阅读(1866) 评论(0) 推荐(0) 编辑

数据仓库-维度

摘要: 各维度类型 渐变维 描述 渐变维(SCD. Slowly Change Dimension),是一种在多维数据仓库中实现维度历史的技术 类型 SCD1 通过更新维度记录直接覆盖已存在的值,它不维护记录的历史 一般用于修改错误的数据 SCD2 在源数据发生变化时,给维度记录建立一个新的版本记录,从而维 阅读全文

posted @ 2020-12-27 17:20 嘣嘣嚓 阅读(519) 评论(0) 推荐(0) 编辑

导航