07 2023 档案
摘要:一直以来主题域或者主题的划分各个公司的划分方法不一,其实适合自己企业的就是最好的,根据我对数仓的理解和经验来说,主题域或者主题的划分就是把物理建模的相关表进行分类管理,他们的划分过程可以按照下图的数据建模过程来划分,业务建模对应主题域的确定,领域建模对应主题(每一个主题基本对应一个宏观的分析领域)的
阅读全文
摘要:1.什么是元数据 元数据是描述数据的组织、数据域及其关系的信息,简言之数据的相关信息而存在的数据,有了元数据可以帮助我们更好的理解业务,实现业务,实现数据资产化。 2.元数据的类型 元数据主要分为技术元数据,业务元数据,管理元数据三大类。 技术元数据 技术元数据是为数仓开发和数仓管理人员服务的,它描
阅读全文
摘要:1.背景 接上次自定义Hivehook后,此次主要是把下半段yan资源使用情况统计功能实现,从而实现对SQL占用情况统计,达到提取出慢SQL,高耗资源的SQL。 2.实施 上次实现了提交的任务ID和Application_id的关联,这次主要每隔2分钟执行一次应用资源占用情况。 具体实现代码,可以关
阅读全文
摘要:1.背景 为了加深对维度建模步骤的理解,特此记录一下,维度建模主要分为以下四个步骤: 选取业务过程 定义粒度 选定维度 确认事实 构建架构 2.实施 选取业务过程 (why) 某电商平台想了解平台运营情况,需要对每月,每天每个地区层级的订单量和销售金额进行统计,统计这些数据需要涉及到订单系统的相关数
阅读全文
摘要:1.背景 最近有个朋友问了一个问题,如何把列值转换为列名进行展示,比如一个表有销售名称,销售日期,销售金额,他想统计这个销售每个月的销售额,然后每个月作为列字段。 2.实施 方法1使用case when: select t1.sale_name ,sum(case when t1.month_id=
阅读全文
摘要:1.背景 数仓建模方法有很多种,各有千秋,可能比较常用的是维度建模或者大宽表的方式进行建模的比较多,DataVault模型用的比较少,特此通过例子来实践加深理解一下。 2.DataVault定义 Data Vault是一种数据仓库建模方法,最早由Dan Linstedt在20世纪90年代提出,主要应
阅读全文
摘要:1.背景 最近gpt很火,于是尝试用gpt来进行古诗词取名,做了一个vue的网站进行展示,第一次部署,踩了一些坑。 2.实施 nodejs安装: 在任意目录执行如下命令进行安装包下载:wget https://npm.taobao.org/mirrors/node/v14.17.6/node-v14
阅读全文
摘要:最近发现一个免费使用gpt的地址,可以关注公众号码农独白,回复gpt即可获取:
阅读全文