随笔分类 -  数仓

摘要:大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作 阅读全文
posted @ 2021-11-02 16:11 民宿 阅读(305) 评论(0) 推荐(0) 编辑
摘要:该cube模型共有商品类别,时间,地点三个维度(图片源于:数据立方体与OLAP): 钻取(Drill-down) 使统计维度降到更细的层级,如下图时间维度从“季度”降到了“月份”层级,能降到多细要看底层数据有多细; 上卷(Roll-up) 则是反过程,“浙江”、“上海”、“江苏”的数据被汇总到了“中 阅读全文
posted @ 2021-10-28 14:47 民宿 阅读(309) 评论(0) 推荐(0) 编辑
摘要:一 row_number() over() 用于给窗口内数据打上行号 有如下数据: 江西,高安,100 江西,南昌,200 江西,丰城,100 江西,上高,80 江西,宜春,150 江西,九江,180 湖北,黄冈,130 湖北,武汉,210 湖北,宜昌,140 湖北,孝感,90 湖南,长沙,170 阅读全文
posted @ 2021-09-16 17:30 民宿 阅读(501) 评论(0) 推荐(0) 编辑
摘要:QPS QPS:全名 Queries Per Second,意思是“每秒查询率”,是一台服务器每秒能够响应的查询次数,是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准。 简单的说,QPS = req/sec = 请求数/秒。它代表的是服务器的机器的性能最大吞吐能力。 在网上,我看到有人在 阅读全文
posted @ 2021-09-15 13:25 民宿 阅读(1010) 评论(0) 推荐(0) 编辑
摘要:在数据仓库持续演进的过程中,逐渐产生了不少的架构方法,主要有Inmon架构,Kimball架构,数据集市架构及混合架构等。 一 数据集市 先说说数据集市吧,数据集市也不是之前单独按照每个部门去搭建的,都是出自搭建好的企业级数据仓库。属于从属数据集市,可以有效消除各部门数据不一致的情况。 早期数据集市 阅读全文
posted @ 2021-08-16 09:46 民宿 阅读(1086) 评论(0) 推荐(0) 编辑
摘要:一、背景 留存率:是用户分析的核心指标之一。它也是经典的AARRR模型(海盗模型)中就有一个重要节点——留存(Acquisition)。留存率的计算也是用户分析模型的计算基础,那么如何在数据库中用SQL实现呢? 二、什么是留存率? 常见的留存率有次日留存、三日留存、7日留存、14日留存、30日留存、 阅读全文
posted @ 2021-08-04 10:54 民宿 阅读(4243) 评论(0) 推荐(1) 编辑
摘要:ETL和ELT是概念性词汇,可以是设计导向结论,也可以是结果导向结论。 E:Extract T:Transform L:Load 无论是ETL还是ELT本质都是以当前对象的行为决定的。 当前对象pull上游消息,就是E行为; 当前对象处理当前数据,就是T行为; 当前对象push消息到下游,就是L行为 阅读全文
posted @ 2021-08-03 09:47 民宿 阅读(552) 评论(0) 推荐(0) 编辑
摘要:背景介绍 当前的数据报表服务采用定时离计算的方式构建数仓,但随着业务对实时性的要求变高,需要实现一套实时入库方案。 问题分析 对外提供服务的大宽表分基础表,事实表和统计表三类,事实表和纬度表都包含纬度信息。在实时流处理过程中,每来一条事实数据,用纬度id查询纬度数据,将纬度数据和事实数据写入具体的业 阅读全文
posted @ 2021-08-02 16:46 民宿 阅读(316) 评论(0) 推荐(0) 编辑
摘要:百度关于ORC和Parquet文件的测试报告,可惜拿不出来,结论可以参考下,之前百度采用了Array{Map{Map}}这样的嵌套数据做的测试,400G的ORC数据文件,吃了1000G的内存,而Parquet相对好点,结论大概是ORC压缩比高,但是吃CPU和内存,适合存储空间吃紧,计算资源强大的集群 阅读全文
posted @ 2021-04-22 10:30 民宿 阅读(719) 评论(0) 推荐(0) 编辑
摘要:1. 数据库是面向事务的设计,数据仓库是面向主题设计。 2.数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有 意引入冗余,采用反范式的方式来设计。 3. 数据库是为捕获和存储数据而设计,数据仓库是为分析数据而设计。 我理解数仓是数据库概念的升级,逻辑上来讲,都是通过数据库软 阅读全文
posted @ 2021-04-14 14:22 民宿 阅读(590) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示