摘要: 调度是数仓数据生成的执行者,好的调度可以事半功倍,目前市面上的调度很多,比如DolphinScheduler、Oozie、Azkaban等调度工具,当然也可自行开发适合自己企业个性化的调度工具。调度工具怎么实现这里暂且不谈,核心谈一下调度除了基本的核心功能外,在实际工作中还需要具备哪些功能,可以提升 阅读全文
posted @ 2023-08-02 16:20 人不疯狂枉一生 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 如何评价数仓的优劣,众说纷纭,其实数仓的优劣评价可以从内部、外部两个方面来评估,也可以从业务角度和技术层面来看。评价的理论很多,实际上我们可通过osm的指标体系来衡量数仓的优劣。 O:数仓优劣判断; S:数据监控、元数据管理、业务流程的理解、预先计算好的中间表或者应用表; M:核心度量指标; 内部的 阅读全文
posted @ 2023-08-01 09:49 人不疯狂枉一生 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 一直以来主题域或者主题的划分各个公司的划分方法不一,其实适合自己企业的就是最好的,根据我对数仓的理解和经验来说,主题域或者主题的划分就是把物理建模的相关表进行分类管理,他们的划分过程可以按照下图的数据建模过程来划分,业务建模对应主题域的确定,领域建模对应主题(每一个主题基本对应一个宏观的分析领域)的 阅读全文
posted @ 2023-07-31 10:45 人不疯狂枉一生 阅读(435) 评论(0) 推荐(0) 编辑
摘要: 1.什么是元数据 元数据是描述数据的组织、数据域及其关系的信息,简言之数据的相关信息而存在的数据,有了元数据可以帮助我们更好的理解业务,实现业务,实现数据资产化。 2.元数据的类型 元数据主要分为技术元数据,业务元数据,管理元数据三大类。 技术元数据 技术元数据是为数仓开发和数仓管理人员服务的,它描 阅读全文
posted @ 2023-07-27 14:45 人不疯狂枉一生 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 1.背景 接上次自定义Hivehook后,此次主要是把下半段yan资源使用情况统计功能实现,从而实现对SQL占用情况统计,达到提取出慢SQL,高耗资源的SQL。 2.实施 上次实现了提交的任务ID和Application_id的关联,这次主要每隔2分钟执行一次应用资源占用情况。 具体实现代码,可以关 阅读全文
posted @ 2023-07-20 17:50 人不疯狂枉一生 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 1.背景 为了加深对维度建模步骤的理解,特此记录一下,维度建模主要分为以下四个步骤: 选取业务过程 定义粒度 选定维度 确认事实 构建架构 2.实施 选取业务过程 (why) 某电商平台想了解平台运营情况,需要对每月,每天每个地区层级的订单量和销售金额进行统计,统计这些数据需要涉及到订单系统的相关数 阅读全文
posted @ 2023-07-19 09:05 人不疯狂枉一生 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 1.背景 最近有个朋友问了一个问题,如何把列值转换为列名进行展示,比如一个表有销售名称,销售日期,销售金额,他想统计这个销售每个月的销售额,然后每个月作为列字段。 2.实施 方法1使用case when: select t1.sale_name ,sum(case when t1.month_id= 阅读全文
posted @ 2023-07-17 15:17 人不疯狂枉一生 阅读(232) 评论(0) 推荐(0) 编辑
摘要: 1.背景 数仓建模方法有很多种,各有千秋,可能比较常用的是维度建模或者大宽表的方式进行建模的比较多,DataVault模型用的比较少,特此通过例子来实践加深理解一下。 2.DataVault定义 Data Vault是一种数据仓库建模方法,最早由Dan Linstedt在20世纪90年代提出,主要应 阅读全文
posted @ 2023-07-14 09:03 人不疯狂枉一生 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 1.背景 最近gpt很火,于是尝试用gpt来进行古诗词取名,做了一个vue的网站进行展示,第一次部署,踩了一些坑。 2.实施 nodejs安装: 在任意目录执行如下命令进行安装包下载:wget https://npm.taobao.org/mirrors/node/v14.17.6/node-v14 阅读全文
posted @ 2023-07-12 11:00 人不疯狂枉一生 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 最近发现一个免费使用gpt的地址,可以关注公众号码农独白,回复gpt即可获取: 阅读全文
posted @ 2023-07-10 13:49 人不疯狂枉一生 阅读(48) 评论(0) 推荐(0) 编辑