离线数仓开发 - 随笔分类 - 大鹏的鸿鹄之志

找到连续的数子

摘要：table1 中找出连续出现三次的数 id num 1 1 2 1 3 1 4 2 5 1 6 1 7 2 select distinct num from( select num, lag(num,1,null) over (order by id asc) as num1, lag(num,2 阅读全文

posted @ 2022-12-05 20:39 大鹏的鸿鹄之志阅读(18) 评论(0) 推荐(0) 编辑

将数组按照指定的顺序排序处理

摘要：转载：https://blog.csdn.net/yang_shibiao/article/details/124968139 1. 数据准备建表语句： create table temp( province string, city string, score bigint ) ;插入数据： IN 阅读全文

posted @ 2022-11-07 17:53 大鹏的鸿鹄之志阅读(587) 评论(0) 推荐(0) 编辑

hive substring_index 函数

摘要：substring_index详解 substring_index(str,delim,count) str:要处理的字符串 delim:分隔符 count:计数例子：str=www.wikibt.com substring_index(str,'.',1) 结果是：www substring_i 阅读全文

posted @ 2022-09-19 21:02 大鹏的鸿鹄之志阅读(3125) 评论(0) 推荐(0) 编辑

GROUPING SETS、ROLLUP、CUBE三者的使用异同

摘要：转载：https://blog.51cto.com/u_13446/7644265 1 SELECT supplier_id, rating, COUNT(*) AS total 2 FROM 3 (VALUES 4 ('supplier1', 'product1', 4), 5 ('supplie 阅读全文

posted @ 2022-08-17 14:52 大鹏的鸿鹄之志阅读(35) 评论(0) 推荐(0) 编辑

拉链表的设计

摘要：转载：https://blog.csdn.net/xiaoyc2012/article/details/100545971 转载：https://zhuanlan.zhihu.com/p/75070697 转载：https://blog.csdn.net/liminghui4321/article/ 阅读全文

posted @ 2022-07-28 22:58 大鹏的鸿鹄之志阅读(47) 评论(0) 推荐(0) 编辑

hive--grouping sets用法及grouping_id计算方法

摘要：转载：https://blog.csdn.net/HappyRocking/article/details/106545559?utm_medium=distribute.pc_feed_404.none-task-blog-2~default~BlogCommendFromBaidu~Rate-2 阅读全文

posted @ 2022-06-29 22:40 大鹏的鸿鹄之志阅读(1450) 评论(0) 推荐(0) 编辑

怎么评价数仓的健康度

摘要：转载：https://baijiahao.baidu.com/s?id=1715303945758332664&wfr=spider&for=pc 编辑导语：作为数据中台能力的根基，对数据资产的管理则必然提至中台建设日程当中。那么，数据资产管理过程中可能会出现什么问题？数据资产健康管理又可以从哪些方阅读全文

posted @ 2022-01-11 11:24 大鹏的鸿鹄之志阅读(677) 评论(0) 推荐(0) 编辑

数仓UDF开发流程

摘要：转载：https://www.cnblogs.com/qyb-bk/articles/6773525.html 转载https://www.cnblogs.com/ylzhang/p/8481867.html 阅读全文

posted @ 2021-09-19 16:58 大鹏的鸿鹄之志阅读(108) 评论(0) 推荐(0) 编辑

数据仓库前人经验

摘要：数据仓库的价值与意义：https://blog.csdn.net/BabyFish13/article/details/103241266 第一部分：首先是工具类的介绍（划重点，要考的！！！！！！！）Hadoop（不用多说了吧）HDFS（分布式文件系统，必须要会的，一切的基石）YARN（资源调度框架阅读全文

posted @ 2021-09-09 11:05 大鹏的鸿鹄之志阅读(173) 评论(0) 推荐(0) 编辑

HIVE 大表JOIN大表优化方法

摘要：今天遇到了百亿级别的数据量JOIN 十亿级别的数据量发现reduce 40分钟还没有出来，进去看单个task 某些task要30min+才能跑完成阅读全文

posted @ 2021-05-30 15:53 大鹏的鸿鹄之志阅读(903) 评论(0) 推荐(0) 编辑

Hive Map结构

摘要：平时很少用到map类型，这次用到了记录一下。适用场景：行转列，且mid的key个数可能不一样的情况。举个栗子： 1 select 2 mid, 3 tags['电影'] as movie, 4 tags['音乐'] as music 5 from( 6 select 7 mid, 8 str_t 阅读全文

posted @ 2020-12-15 20:57 大鹏的鸿鹄之志阅读(1420) 评论(0) 推荐(0) 编辑

Hive优化~参数优化

摘要：转载：https://blog.csdn.net/weixin_46163590/article/details/106191042?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3. 阅读全文

posted @ 2020-11-25 17:17 大鹏的鸿鹄之志阅读(391) 评论(0) 推荐(0) 编辑

数据仓库建设指导意见

摘要：转载：https://mp.weixin.qq.com/s/8M31uSlNt5vC34R4Xr1dZA 如果把指标⽐喻成⼀棵树上的果实，那模型就是这棵⼤树的躯⼲，想让果实结得好，必须让树⼲变得粗壮。真实场景举例：⼤多数公司的分析师会结合业务做⼀些数据分析（需要⽤到⼤量的数据），通过报表的⽅式服务于阅读全文

posted @ 2020-10-09 11:21 大鹏的鸿鹄之志阅读(280) 评论(0) 推荐(0) 编辑

面试问题集锦

摘要：一.Hadoop 1.hdfs写流程 2.hdfs读流程 3.hdfs的体系结构 4.一个datanode 宕机,怎么一个流程恢复 5.hadoop 的 namenode 宕机,怎么解决 6.namenode对元数据的管理 7.元数据的checkpoint 8.yarn资源调度流程 9.hadoop 阅读全文

posted @ 2020-09-29 15:06 大鹏的鸿鹄之志阅读(414) 评论(0) 推荐(0) 编辑

数据治理

摘要：转载： https://mp.weixin.qq.com/s/owrvh4XP0Ip5gE_GXKfulQ 作为一家高度数字化和技术驱动的公司，美团非常重视数据价值的挖掘。在公司日常运行中，通过各种数据分析挖掘手段，为公司发展决策和业务开展提供数据支持。经过多年的发展，美团酒旅内部形成了一套完整的解阅读全文

posted @ 2020-09-28 11:27 大鹏的鸿鹄之志阅读(407) 评论(0) 推荐(0) 编辑

阅读

摘要：1，binlog同步数据 2，CRM系统？阅读全文

posted @ 2020-09-27 16:37 大鹏的鸿鹄之志阅读(108) 评论(0) 推荐(0) 编辑

面试小问题集锦

摘要：1，怎么评价数仓的好坏 2，数仓是怎么组织的？规范是什么？ 2，哪个阶段可能会发生shuffle 3，用两个key关联会有几个MR 4，数据倾斜怎么处理的？你是怎么发现的呢？ explai查看语句后，里面用的什么算法？ 5， 4，删除表发现类似死机现象有什么原因造成的 5，断层排序（实现出排序的效果阅读全文

posted @ 2020-09-12 08:31 大鹏的鸿鹄之志阅读(68) 评论(0) 推荐(0) 编辑

数据仓库～视屏学习～尚硅谷

摘要：恢复内容开始数据仓库为什么要分层？层次越多说明越复杂 1，把复杂问题简单化，将一个复杂的任务分解成多个步骤来完成，每一层处理单一的步骤，比较简单，方便定位问题 2，减少重复开发规范数据分层，通过中间层数据，能减少极大的重复计算，增加一次计算结果的复用性。 3，隔离原始数据不论是数据的异常还阅读全文

posted @ 2019-12-09 23:18 大鹏的鸿鹄之志阅读(315) 评论(0) 推荐(0) 编辑

数据倾斜的原因和解决方案

摘要：MapReduce简介MapReduce是面向大数据并行处理的计算模型、框架和平台，它隐含了以下三层含义： 1）MapReduce是一个基于集群的高性能并行计算平台（Cluster Infrastructure）。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。阅读全文

posted @ 2019-12-06 23:43 大鹏的鸿鹄之志阅读(11167) 评论(0) 推荐(1) 编辑

随笔分类 - 离线数仓开发

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论