随笔分类 -  bigdata 数仓

摘要:https://cloud.tencent.com/developer/article/1769585 阅读全文
posted @ 2024-06-07 19:33 guoyu1 阅读(11) 评论(0) 推荐(0) 编辑
摘要:https://www.cnblogs.com/cciejh/p/lambda-architecture.html 阅读全文
posted @ 2024-06-07 19:01 guoyu1 阅读(4) 评论(0) 推荐(0) 编辑
摘要:https://cloud.tencent.com/developer/article/1752848 阅读全文
posted @ 2024-02-03 14:27 guoyu1 阅读(3) 评论(0) 推荐(0) 编辑
摘要:https://www.e-1.cn/2023/11/14/%E6%95%B0%E6%8D%AE%E5%90%8C%E6%AD%A5%E5%B7%A5%E5%85%B7%E8%B0%83%E7%A0%94%E9%80%89%E5%9E%8B%EF%BC%9Aseatunnel-%E4%B8%8E-d 阅读全文
posted @ 2024-01-29 13:04 guoyu1 阅读(15) 评论(0) 推荐(0) 编辑
摘要:https://www.cnblogs.com/ahu-lichang/p/10899747.html 阅读全文
posted @ 2024-01-27 18:34 guoyu1 阅读(9) 评论(0) 推荐(0) 编辑
摘要:https://cloud.tencent.com/developer/article/1845622 阅读全文
posted @ 2024-01-24 21:16 guoyu1 阅读(6) 评论(0) 推荐(0) 编辑
摘要:https://www.zhihu.com/question/41541395 相同点: 1、都是数据的预聚合,空间换时间 区别: 1、druid支持数据实时摄入,实时查询 2、druid核心是时间序列,适合于按照时间进行统计分析的场景 3、kylin将hive中的数据按照查询列构建成cube,存储 阅读全文
posted @ 2024-01-10 18:45 guoyu1 阅读(65) 评论(0) 推荐(0) 编辑
摘要:Trino(以前称为PrestoSQL)是一个分布式 SQL 查询引擎,用于在大规模数据存储中执行交互式查询。以下是 Trino 的核心优势和一些原理: Trino 的核心优势: 分布式查询: Trino支持将查询分发到底层数据存储的多个节点上,从而实现高效的分布式查询。这使得Trino非常适合处理 阅读全文
posted @ 2024-01-07 11:15 guoyu1 阅读(283) 评论(0) 推荐(0) 编辑
摘要:字节跳动基于 Hudi 的实时数据湖平台 https://developer.volcengine.com/articles/7220345269954003004 数仓实时化改造:Hudi on Flink 在顺丰的实践应用 https://www.logclub.com/articleInfo/ 阅读全文
posted @ 2024-01-05 23:36 guoyu1 阅读(60) 评论(0) 推荐(0) 编辑
摘要:https://bbs.huaweicloud.com/blogs/282421 阅读全文
posted @ 2024-01-05 22:20 guoyu1 阅读(10) 评论(0) 推荐(0) 编辑
摘要:https://www.cnblogs.com/miketwais/articles/data_lakehouse.html 数仓:存储结构化数据,基于指标需求,面向主题组织数据,协助经营者进行决策; 数据湖:存储结构化,半结构化,非结构化,二进制数据,强调的是对于原始数据的存储,保留数据的完整性。 阅读全文
posted @ 2024-01-05 21:50 guoyu1 阅读(42) 评论(0) 推荐(0) 编辑
摘要:一条查询 SQL 在关系型分布式数据库中的处理,通常需要经过 3 大步骤: 1. 将 SQL 文本转换成一个 “最佳的”分布式物理执行计划 2. 将执行计划调度到计算节点 3. 计算节点执行具体的物理执行计划 本文将详细解释在 StarRocks 中如何完成一条查询 SQL 的处理。 首先来了解 S 阅读全文
posted @ 2024-01-01 18:55 guoyu1 阅读(912) 评论(0) 推荐(0) 编辑
摘要:https://zhuanlan.zhihu.com/p/441059030 阅读全文
posted @ 2023-12-26 18:16 guoyu1 阅读(51) 评论(0) 推荐(0) 编辑
摘要:10分钟带你全面了解StarRocks,写的很好 https://zhuanlan.zhihu.com/p/532302941 阅读全文
posted @ 2023-12-10 22:12 guoyu1 阅读(51) 评论(0) 推荐(0) 编辑
摘要:结构化、半结构化和非结构化数据是根据数据的组织和表示形式来分类的,这种分类主要用于描述数据的组织结构和处理方式。 结构化数据(Structured Data): 定义: 结构化数据是一种具有明确定义和固定格式的数据,通常存储在关系型数据库中,表现为行和列的结构。 特征: 数据的组织和关系在预定义的模 阅读全文
posted @ 2023-12-10 18:49 guoyu1 阅读(152) 评论(0) 推荐(0) 编辑
摘要:1、olap、oltp、htap数据库的区别: https://aws.amazon.com/cn/compare/the-difference-between-olap-and-oltp/ https://blog.51cto.com/kymdidicom/3145671 2、常见的olap数据库 阅读全文
posted @ 2023-11-26 13:04 guoyu1 阅读(11) 评论(0) 推荐(0) 编辑
摘要:定义: https://blog.csdn.net/weixin_47984998/article/details/122043993 区别:1、维度表是直接连接到事实表还是其他的维度表。2、雪花模型的优点: 通过最大限度的减少数据量以及连接较小的维度表来实现改善查询的功能,雪花结构减少的数据的冗余 阅读全文
posted @ 2022-04-14 15:24 guoyu1 阅读(287) 评论(0) 推荐(0) 编辑
摘要:https://segmentfault.com/a/1190000040428093 https://blog.csdn.net/qq_22473611/article/details/109053952 impala和hive的对比: https://juejin.cn/post/6997836 阅读全文
posted @ 2022-03-12 17:27 guoyu1 阅读(92) 评论(0) 推荐(0) 编辑
摘要:alter table table_name set TBLPROPERTIES('EXTERNAL'='FALSE'); alter table yum_area_ods.ods_full_city_mapping add columns(taco_city_code string comment 阅读全文
posted @ 2022-01-19 16:03 guoyu1 阅读(41) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示