博客园 首页 私信博主 显示目录 隐藏目录 管理 动画

随笔分类 -  Hive

离线数仓 HQL
摘要:Hive面试题(约3.3w字) 说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么? Hive是Hadoop生态系统中比不可少的一个工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据或其他和Hadoop集成的文件系统,如MapR 阅读全文
posted @ 2022-06-28 15:10 CHANG_09 阅读(378) 评论(0) 推荐(0) 编辑
摘要:关系建模:遵循三范式 1.基本字段不可再分割 2.其他字段对主键完全依赖 3.其他字段间不存在传递依赖关系 维度建模:星型模型 雪花模型 星座模型 实体表 维度表(码表) 事实表 事实表的分类:事务型事实表 周期型快照事实表 累积型快照事实表 按数据同步分类: 全量表 增量表 同步新增及变化数据的表 阅读全文
posted @ 2022-06-15 09:22 CHANG_09 阅读(89) 评论(0) 推荐(0) 编辑
摘要:dwd层除了数据清洗 cast(id as bigint)>0 and id is not 之外,维度退化的作用 将 三级分类 省市、区域 等小表提前 join 成 商品分类、地区表等 避免后期频繁join 影响查询效率 阅读全文
posted @ 2022-06-15 08:50 CHANG_09 阅读(388) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2022-06-14 20:41 CHANG_09 阅读(17) 评论(0) 推荐(0) 编辑
摘要:Hive on Spark配置 兼容性说明 注意:官网下载的 Hive3.1.2 和 Spark3.0.0 默认是不兼容的。 因为 Hive3.1.2 支持的 Spark 版本是2.4.5,所以需要我们重新编译Hive3.1.2版本。 编译步骤:官网下载Hive3.1.2源码,修改pom文件中引用的 阅读全文
posted @ 2022-06-05 20:00 CHANG_09 阅读(8395) 评论(0) 推荐(1) 编辑
摘要:原文:Hive3.1.2源码编译兼容Spark3.1.2 Hive on Spark - D-Arlin - 博客园 (cnblogs.com) 在使用hive3.1.2和spark3.1.2配置hive on spark的时候,发现官方下载的hive3.1.2和spark3.1.2不兼容,hive 阅读全文
posted @ 2022-06-02 17:07 CHANG_09 阅读(2104) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2022-06-02 10:10 CHANG_09 阅读(34) 评论(0) 推荐(0) 编辑
摘要:(10条消息) hive的开窗函数_Climber_XL的博客-CSDN博客_hive 开窗 Function (arg1,..., argn) OVER ([PARTITION BY <...>] [ORDER BY <....>] [<window_expression>]) -- 聚合开窗函数 阅读全文
posted @ 2022-06-02 10:05 CHANG_09 阅读(2468) 评论(0) 推荐(1) 编辑
摘要:1)把apache-hive-3.1.2-bin.tar.gz上传到linux的/opt/software目录下 2)解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面 [atguigu@hadoop102 software]$ tar -zxvf /op 阅读全文
posted @ 2022-05-31 19:34 CHANG_09 阅读(58) 评论(0) 推荐(0) 编辑
摘要:(1) 数据存储及压缩。 针对hive中表的存储格式通常有orc和parquet,压缩格式一般使用snappy。 相比与textfile格式表,orc 占有更少的存储。 因为 hive 底层使用 MR 计算架构,数据流是 hdfs 到磁盘再到hdfs,而且会有很多次, 所以使用 orc 数据格式和 阅读全文
posted @ 2022-05-31 16:45 CHANG_09 阅读(176) 评论(0) 推荐(0) 编辑
摘要:hdfs + yarnlzo 压缩 : 减少磁盘空间占用tez 引擎 : 不是只有MR,更灵活,运算更快列式存储 : 行转列 text -> parquet sql explain : join where 先 where 后 join hql -> mr : 解析 编译 优化 执行 阅读全文
posted @ 2022-05-29 21:11 CHANG_09 阅读(31) 评论(0) 推荐(0) 编辑
摘要:解析器: 解析hql 遍历抽象语法树 抽象出查询基本单位 查询块 编译器: 遍历查询块 生成操作树 (即最初的执行逻辑)优化器: 合并不必要的job,减少shuffle 生成任务树 (即最终执行逻辑)执行器: 执行任务树 阅读全文
posted @ 2022-05-29 19:50 CHANG_09 阅读(143) 评论(0) 推荐(0) 编辑
摘要:hiveserver2:如果要通过jdbc连接hive,则需要启动hiveserver2。常见jdbc客户端:beeline bin/hive --service metastore & metastore:提供一个数据接口,获取hive元数据。获取获取元数据的方式:1直连mysql获取2连接met 阅读全文
posted @ 2022-05-28 08:08 CHANG_09 阅读(797) 评论(0) 推荐(0) 编辑
摘要:- /*-- 1653219286244|{"cm":{"ln":"-39.0","sv":"V2.4.3","os":"8.1.3","g":"QK98H42I@gmai"mid":"998","nw":"WIFI","l":"es","vc":"13"," 阅读全文
posted @ 2022-05-25 21:16 CHANG_09 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2022-05-24 20:08 CHANG_09 阅读(27) 评论(0) 推荐(0) 编辑
摘要:数据的字段不够用,为了满足数据开发的要求 阅读全文
posted @ 2022-05-09 08:56 CHANG_09 阅读(50) 评论(0) 推荐(0) 编辑
摘要:分层架构的好处: 1. 分层架构的目的是通过 关注点分离 来降低 系统的复杂度。分层后 数据逻辑清晰,便于数据的开发和维护。 2. 同时满足 单一职责、高内聚、低耦合 3. 提高可 复用性 和 降低维护成本。 单一职责:每一层只负责一个职责,职责边界清晰,如持久层只负责数据查询和存储,领域层只负责处 阅读全文
posted @ 2022-05-09 08:53 CHANG_09 阅读(820) 评论(0) 推荐(0) 编辑
摘要:提交spark应用到yarn集群上的时候在跑一段时间就会出现这个报错: 根据上面的报错原因分析是因为集群资源不够,集群的自我保护机制使hdfs处于安全模式,然后我用”hdfs dfsadmin -safemode leave“命令让集群恢复到可用模式但是在提交到集群时还是会报错同样的错误 然后就查找 阅读全文
posted @ 2022-02-17 15:19 CHANG_09 阅读(499) 评论(0) 推荐(0) 编辑
摘要:1 //1.1 启动hive服务 2 3 bin/hiveserver2 4 5 //1.2 创建hive数据表 6 7 create database test8; 8 use test8; 9 create table test8( 10 cname string, 11 cdate strin 阅读全文
posted @ 2022-01-14 09:33 CHANG_09 阅读(68) 评论(0) 推荐(0) 编辑
摘要:数据:Student(Sid,Sname,Sage,Ssex)学生表Sid:学号 Sname:学生姓名 Sbirth:学生生日 Ssex:学生性别01 赵雷 1990-01-01 男02 钱电 1990-12-21 男03 孙风 1990-05-20 男04 李云 1990-08-06 男05 周梅 阅读全文
posted @ 2022-01-13 22:13 CHANG_09 阅读(78) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示