上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 33 下一页

2022年2月16日

什么是数据湖?

摘要: 1.什么是数据湖? 定义:一个以原始格式(通常是对象快或文件)存储数据的系统或存储库,通常是所有企业数据的单一存储 数据湖可以包括来自关系数据库的结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(email、文档、pdf)和二进制数据(图像、音频、视频) 数据湖越来 阅读全文

posted @ 2022-02-16 21:13 嘣嘣嚓 阅读(566) 评论(0) 推荐(0) 编辑

2020年12月27日

Hive-排序方式

摘要: Hive-排序方式 order by 会对查询的结果做一次全局排序 所有的数据都会发送到同一个reducer进行处理,不管有多少map,也不管文件有多少block块,只会启动一个reducer,因为多个reducer无法保证全局有序 优点 全局有序 缺点 对大量数据进行排序耗时会比较长 sort b 阅读全文

posted @ 2020-12-27 20:21 嘣嘣嚓 阅读(150) 评论(0) 推荐(0) 编辑

Hive执行SQL步骤

摘要: Hive执行SQL步骤 执行查询 从Hive的CLI或WebUI发查询命令给驱动程序(任何JDBC、ODBC数据库驱动)执行 获得计划 驱动程序请求查询编辑器解析查询、检查语法、生成查询计划或者查询所需要的资源 获取元数据 编译器向元数据存储数据库发送元数据请求 发送元数据 作为响应,元数据存储数据 阅读全文

posted @ 2020-12-27 20:19 嘣嘣嚓 阅读(1001) 评论(0) 推荐(0) 编辑

Hive-分区、分桶

摘要: Hive-分区、分桶 分桶(bucket) 对某一列取哈希值,对桶的个数求模取余,根据余数决定该条记录进入哪一个桶 场景:小表关联大表时效果明显(Map Side Join),会把小表数据通过DistributedCache分发到各个Map Side,然后加载到内存和每一个Map任务处理的大表进行J 阅读全文

posted @ 2020-12-27 20:18 嘣嘣嚓 阅读(230) 评论(0) 推荐(0) 编辑

Hive-文件存储格式

摘要: Hive-文件格式 TEXTFILE 描述 TEXTFILE是普通的文本型文件,是Hadoop里最常用的输入输出格式,也是Hive的默认文件格式。 输入输出包 org.apache.hadoop.mapred.TextInputFormat org.apache.hadoop.mapred.Text 阅读全文

posted @ 2020-12-27 20:17 嘣嘣嚓 阅读(204) 评论(0) 推荐(0) 编辑

sqoop优化

摘要: sqoop优化 batch 语法:--batch,指示使用批处理模式执行底层的SQL语句。在导出数据时,该参数能够将相关的SQL语句组合在一起批量执行,也可以使用有效的API在JDBC接口中配置批处理参数 Dsqoop.export.records.per.statement 指定批处理数据条数,可 阅读全文

posted @ 2020-12-27 20:07 嘣嘣嚓 阅读(2074) 评论(0) 推荐(0) 编辑

数据仓库-数据集市

摘要: 数据仓库-数据集市 概念 数据集市是数据仓库的一种简单形式,通常由组织内的业务部门自己建立和控制。一个数据集市面向单一主题域,如销售、财务、市场等。数据集市的数据源可以是操作型系统(独立数据集市),也可以是企业级数据仓库(从属数据集市)。 与数仓区别 范围 数仓:企业级 数据集市:部门级或业务线 主 阅读全文

posted @ 2020-12-27 20:04 嘣嘣嚓 阅读(521) 评论(0) 推荐(0) 编辑

数据仓库-实施步骤

摘要: 数据仓库-实施步骤 定义范围 项目范围定义了一个数据仓库项目的边界。典型的范围定义是组织、地区、应用、业务功能的联合表示。 定义范围时通常需要权衡考虑资源(人员、系统、预算等)、进度(项目的时间和里程碑要求)、功能(数据仓库承诺达到的能力)三方面的因素。 定义好清晰明确的范围,并得到所有项目干系人的 阅读全文

posted @ 2020-12-27 20:00 嘣嘣嚓 阅读(584) 评论(0) 推荐(0) 编辑

数据仓库-数据清洗

摘要: 数据仓库-数据清洗 定义 ETL 抽取(Extract)、转换(Transform)、加载(Load) ETL的核心价值在"T"所代表的转换部分 数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性 为什么要进行数据清洗 数据仓库中的数据是面向某一主题数据 阅读全文

posted @ 2020-12-27 19:40 嘣嘣嚓 阅读(2234) 评论(0) 推荐(0) 编辑

数据仓库-维度模型(模型类型、建模过程)

摘要: 数据仓库-维度模型 描述 Dimensional Modeling,简称DM,是一套技术和概念的集合,用于数据仓库设计 核心概念 事实 表示对业务数据的度量 通常是数字类型的,可以进行聚合和计算 维度 对观察数据的角度 一组层次关系或描述信息,用来定义事实 举例:销售金额是一个事实,而销售时间、销售 阅读全文

posted @ 2020-12-27 17:40 嘣嘣嚓 阅读(1866) 评论(0) 推荐(0) 编辑

上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 33 下一页

导航