找到连续的数子
摘要:table1 中 找出连续出现三次的数 id num 1 1 2 1 3 1 4 2 5 1 6 1 7 2 select distinct num from( select num, lag(num,1,null) over (order by id asc) as num1, lag(num,2
阅读全文
posted @
2022-12-05 20:39
大鹏的鸿鹄之志
阅读(18)
推荐(0) 编辑
将数组按照指定的顺序排序处理
摘要:转载:https://blog.csdn.net/yang_shibiao/article/details/124968139 1. 数据准备建表语句: create table temp( province string, city string, score bigint ) ;插入数据: IN
阅读全文
posted @
2022-11-07 17:53
大鹏的鸿鹄之志
阅读(587)
推荐(0) 编辑
hive substring_index 函数
摘要:substring_index详解 substring_index(str,delim,count) str:要处理的字符串 delim:分隔符 count:计数 例子:str=www.wikibt.com substring_index(str,'.',1) 结果是:www substring_i
阅读全文
posted @
2022-09-19 21:02
大鹏的鸿鹄之志
阅读(3125)
推荐(0) 编辑
GROUPING SETS、ROLLUP、CUBE三者的使用异同
摘要:转载:https://blog.51cto.com/u_13446/7644265 1 SELECT supplier_id, rating, COUNT(*) AS total 2 FROM 3 (VALUES 4 ('supplier1', 'product1', 4), 5 ('supplie
阅读全文
posted @
2022-08-17 14:52
大鹏的鸿鹄之志
阅读(35)
推荐(0) 编辑
拉链表的设计
摘要:转载:https://blog.csdn.net/xiaoyc2012/article/details/100545971 转载:https://zhuanlan.zhihu.com/p/75070697 转载:https://blog.csdn.net/liminghui4321/article/
阅读全文
posted @
2022-07-28 22:58
大鹏的鸿鹄之志
阅读(47)
推荐(0) 编辑
hive--grouping sets用法及grouping_id计算方法
摘要:转载:https://blog.csdn.net/HappyRocking/article/details/106545559?utm_medium=distribute.pc_feed_404.none-task-blog-2~default~BlogCommendFromBaidu~Rate-2
阅读全文
posted @
2022-06-29 22:40
大鹏的鸿鹄之志
阅读(1450)
推荐(0) 编辑
怎么评价数仓的健康度
摘要:转载:https://baijiahao.baidu.com/s?id=1715303945758332664&wfr=spider&for=pc 编辑导语:作为数据中台能力的根基,对数据资产的管理则必然提至中台建设日程当中。那么,数据资产管理过程中可能会出现什么问题?数据资产健康管理又可以从哪些方
阅读全文
posted @
2022-01-11 11:24
大鹏的鸿鹄之志
阅读(677)
推荐(0) 编辑
数仓UDF开发流程
摘要:转载:https://www.cnblogs.com/qyb-bk/articles/6773525.html 转载https://www.cnblogs.com/ylzhang/p/8481867.html
阅读全文
posted @
2021-09-19 16:58
大鹏的鸿鹄之志
阅读(108)
推荐(0) 编辑
数据仓库前人经验
摘要:数据仓库的价值与意义:https://blog.csdn.net/BabyFish13/article/details/103241266 第一部分:首先是工具类的介绍(划重点,要考的!!!!!!!)Hadoop(不用多说了吧)HDFS(分布式文件系统,必须要会的,一切的基石)YARN(资源调度框架
阅读全文
posted @
2021-09-09 11:05
大鹏的鸿鹄之志
阅读(173)
推荐(0) 编辑
HIVE 大表JOIN大表优化方法
摘要:今天遇到了百亿级别的数据量JOIN 十亿级别的数据量 发现reduce 40分钟还没有出来,进去看单个task 某些task要30min+才能跑完成
阅读全文
posted @
2021-05-30 15:53
大鹏的鸿鹄之志
阅读(903)
推荐(0) 编辑
Hive Map结构
摘要:平时很少用到map类型,这次用到了记录一下。 适用场景:行转列,且mid的key个数可能不一样的情况。 举个栗子: 1 select 2 mid, 3 tags['电影'] as movie, 4 tags['音乐'] as music 5 from( 6 select 7 mid, 8 str_t
阅读全文
posted @
2020-12-15 20:57
大鹏的鸿鹄之志
阅读(1420)
推荐(0) 编辑
Hive优化~参数优化
摘要:转载:https://blog.csdn.net/weixin_46163590/article/details/106191042?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.
阅读全文
posted @
2020-11-25 17:17
大鹏的鸿鹄之志
阅读(391)
推荐(0) 编辑
数据仓库建设指导意见
摘要:转载:https://mp.weixin.qq.com/s/8M31uSlNt5vC34R4Xr1dZA 如果把指标⽐喻成⼀棵树上的果实,那模型就是这棵⼤树的躯⼲,想让果实结得好,必须让树⼲变得粗壮。真实场景举例:⼤多数公司的分析师会结合业务做⼀些数据分析(需要⽤到⼤量的数据),通过报表的⽅式服务于
阅读全文
posted @
2020-10-09 11:21
大鹏的鸿鹄之志
阅读(280)
推荐(0) 编辑
面试问题集锦
摘要:一.Hadoop 1.hdfs写流程 2.hdfs读流程 3.hdfs的体系结构 4.一个datanode 宕机,怎么一个流程恢复 5.hadoop 的 namenode 宕机,怎么解决 6.namenode对元数据的管理 7.元数据的checkpoint 8.yarn资源调度流程 9.hadoop
阅读全文
posted @
2020-09-29 15:06
大鹏的鸿鹄之志
阅读(414)
推荐(0) 编辑
数据治理
摘要:转载: https://mp.weixin.qq.com/s/owrvh4XP0Ip5gE_GXKfulQ 作为一家高度数字化和技术驱动的公司,美团非常重视数据价值的挖掘。在公司日常运行中,通过各种数据分析挖掘手段,为公司发展决策和业务开展提供数据支持。经过多年的发展,美团酒旅内部形成了一套完整的解
阅读全文
posted @
2020-09-28 11:27
大鹏的鸿鹄之志
阅读(407)
推荐(0) 编辑
面试小问题集锦
摘要:1,怎么评价数仓的好坏 2,数仓是怎么组织的?规范是什么? 2,哪个阶段可能会发生shuffle 3,用两个key关联会有几个MR 4,数据倾斜怎么处理的?你是怎么发现的呢? explai查看语句后,里面用的什么算法? 5, 4,删除表发现类似死机现象有什么原因造成的 5,断层排序(实现出排序的效果
阅读全文
posted @
2020-09-12 08:31
大鹏的鸿鹄之志
阅读(68)
推荐(0) 编辑
数据仓库~视屏学习~尚硅谷
摘要:恢复内容开始 数据仓库为什么要分层? 层次越多说明越复杂 1,把复杂问题简单化, 将一个复杂的任务分解成多个步骤来完成,每一层处理单一的步骤,比较简单,方便定位问题 2,减少重复开发 规范数据分层,通过中间层数据,能减少极大的重复计算,增加一次计算结果的复用性。 3,隔离原始数据 不论是数据的异常还
阅读全文
posted @
2019-12-09 23:18
大鹏的鸿鹄之志
阅读(315)
推荐(0) 编辑
数据倾斜的原因和解决方案
摘要:MapReduce简介MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义: 1)MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。
阅读全文
posted @
2019-12-06 23:43
大鹏的鸿鹄之志
阅读(11167)
推荐(1) 编辑