Hive - 随笔分类 - CHANG_09

大数据面试题V3.0 -- Hive面试题（约3.3w字）

摘要：Hive面试题（约3.3w字）说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么? Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR 阅读全文

posted @ 2022-06-28 15:10 CHANG_09 阅读(439) 评论(0) 推荐(0)

离线数仓建模、表的类型分类

摘要：关系建模：遵循三范式 1.基本字段不可再分割 2.其他字段对主键完全依赖 3.其他字段间不存在传递依赖关系维度建模：星型模型雪花模型星座模型实体表维度表(码表) 事实表事实表的分类：事务型事实表周期型快照事实表累积型快照事实表按数据同步分类：全量表增量表同步新增及变化数据的表阅读全文

posted @ 2022-06-15 09:22 CHANG_09 阅读(101) 评论(0) 推荐(0)

dwd层维度退化的作用

摘要：dwd层除了数据清洗 cast(id as bigint)>0 and id is not 之外，维度退化的作用将三级分类省市、区域等小表提前 join 成商品分类、地区表等避免后期频繁join 影响查询效率阅读全文

posted @ 2022-06-15 08:50 CHANG_09 阅读(438) 评论(0) 推荐(0)

业务数据分层建模仓库

摘要：阅读全文

posted @ 2022-06-14 20:41 CHANG_09 阅读(27) 评论(0) 推荐(0)

Hive on spark 配置 & 踩坑记录 org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.)

摘要：Hive on Spark配置兼容性说明注意：官网下载的 Hive3.1.2 和 Spark3.0.0 默认是不兼容的。因为 Hive3.1.2 支持的 Spark 版本是2.4.5，所以需要我们重新编译Hive3.1.2版本。编译步骤：官网下载Hive3.1.2源码，修改pom文件中引用的阅读全文

posted @ 2022-06-05 20:00 CHANG_09 阅读(9099) 评论(0) 推荐(1)

Hive3.1.2源码编译兼容Spark3.1.2 Hive on Spark

摘要：原文：Hive3.1.2源码编译兼容Spark3.1.2 Hive on Spark - D-Arlin - 博客园 (cnblogs.com) 在使用hive3.1.2和spark3.1.2配置hive on spark的时候，发现官方下载的hive3.1.2和spark3.1.2不兼容，hive 阅读全文

posted @ 2022-06-02 17:07 CHANG_09 阅读(2240) 评论(0) 推荐(0)

UDTF 如何使用

摘要：阅读全文

posted @ 2022-06-02 10:10 CHANG_09 阅读(49) 评论(0) 推荐(0)

Hive 常用的开窗函数

摘要：(10条消息) hive的开窗函数_Climber_XL的博客-CSDN博客_hive 开窗 Function (arg1,..., argn) OVER ([PARTITION BY <...>] [ORDER BY <....>] [<window_expression>]) -- 聚合开窗函数阅读全文

posted @ 2022-06-02 10:05 CHANG_09 阅读(2512) 评论(0) 推荐(1)

Hive安装部署

摘要：1）把apache-hive-3.1.2-bin.tar.gz上传到linux的/opt/software目录下 2）解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面 [atguigu@hadoop102 software]$ tar -zxvf /op 阅读全文

posted @ 2022-05-31 19:34 CHANG_09 阅读(75) 评论(0) 推荐(0)

hive 优化有哪些？

摘要：(1) 数据存储及压缩。针对hive中表的存储格式通常有orc和parquet，压缩格式一般使用snappy。相比与textfile格式表，orc 占有更少的存储。因为 hive 底层使用 MR 计算架构，数据流是 hdfs 到磁盘再到hdfs，而且会有很多次，所以使用 orc 数据格式和阅读全文

posted @ 2022-05-31 16:45 CHANG_09 阅读(192) 评论(0) 推荐(0)

Hive的架构？优化？

摘要：hdfs + yarnlzo 压缩：减少磁盘空间占用tez 引擎：不是只有MR，更灵活，运算更快列式存储 : 行转列 text -> parquet sql explain ： join where 先 where 后 join hql -> mr ：解析编译优化执行阅读全文

posted @ 2022-05-29 21:11 CHANG_09 阅读(44) 评论(0) 推荐(0)

HiveSQL 转换为 MR 的过程

摘要：解析器：解析hql 遍历抽象语法树抽象出查询基本单位查询块编译器：遍历查询块生成操作树（即最初的执行逻辑）优化器：合并不必要的job,减少shuffle 生成任务树（即最终执行逻辑）执行器：执行任务树阅读全文

posted @ 2022-05-29 19:50 CHANG_09 阅读(167) 评论(0) 推荐(0)

hive --service metastore

摘要：hiveserver2：如果要通过jdbc连接hive，则需要启动hiveserver2。常见jdbc客户端：beeline bin/hive --service metastore & metastore：提供一个数据接口，获取hive元数据。获取获取元数据的方式：1直连mysql获取2连接met 阅读全文

posted @ 2022-05-28 08:08 CHANG_09 阅读(831) 评论(0) 推荐(0)

UDTF 函数模板

摘要：- /*-- 1653219286244|{"cm":{"ln":"-39.0","sv":"V2.4.3","os":"8.1.3","g":"QK98H42I@gmai"mid":"998","nw":"WIFI","l":"es","vc":"13"," 阅读全文

posted @ 2022-05-25 21:16 CHANG_09 阅读(97) 评论(0) 推荐(0)

数仓选型

摘要：阅读全文

posted @ 2022-05-24 20:08 CHANG_09 阅读(38) 评论(0) 推荐(0)

为什么要拉宽数据

摘要：数据的字段不够用，为了满足数据开发的要求阅读全文

posted @ 2022-05-09 08:56 CHANG_09 阅读(78) 评论(0) 推荐(0)

分层架构的优缺点

摘要：分层架构的好处： 1. 分层架构的目的是通过关注点分离来降低系统的复杂度。分层后数据逻辑清晰，便于数据的开发和维护。 2. 同时满足单一职责、高内聚、低耦合 3. 提高可复用性和降低维护成本。单一职责：每一层只负责一个职责，职责边界清晰，如持久层只负责数据查询和存储，领域层只负责处阅读全文

posted @ 2022-05-09 08:53 CHANG_09 阅读(1022) 评论(0) 推荐(0)

Resources are low on NN. Please add or free up more resources then turn off safe mode manually.

摘要：提交spark应用到yarn集群上的时候在跑一段时间就会出现这个报错：根据上面的报错原因分析是因为集群资源不够，集群的自我保护机制使hdfs处于安全模式，然后我用”hdfs dfsadmin -safemode leave“命令让集群恢复到可用模式但是在提交到集群时还是会报错同样的错误然后就查找阅读全文

posted @ 2022-02-17 15:19 CHANG_09 阅读(563) 评论(0) 推荐(0)

hive数据表之开窗函数

摘要：1 //1.1 启动hive服务 2 3 bin/hiveserver2 4 5 //1.2 创建hive数据表 6 7 create database test8; 8 use test8; 9 create table test8( 10 cname string, 11 cdate strin 阅读全文

posted @ 2022-01-14 09:33 CHANG_09 阅读(84) 评论(0) 推荐(0)

Hive hql 练习

摘要：数据：Student(Sid,Sname,Sage,Ssex)学生表Sid：学号 Sname：学生姓名 Sbirth：学生生日 Ssex：学生性别01 赵雷 1990-01-01 男02 钱电 1990-12-21 男03 孙风 1990-05-20 男04 李云 1990-08-06 男05 周梅阅读全文

posted @ 2022-01-13 22:13 CHANG_09 阅读(110) 评论(0) 推荐(0)

CHANG_09

随笔分类 - Hive

公告