会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
chaplinthink
关注领域: 大数据 & 架构设计
博客园
首页
新随笔
联系
管理
订阅
2022年1月17日
[离线计算-Spark|Hive] 数据近实时同步数仓方案设计
摘要: 本文主要针对hudi进行调研, 设计MySQL CDC 近实时同步至数仓中方案, 写入主要利用hudi的upsert以及delete能力. 针对hudi 表的查询,引入kyuubi 框架,除 了增强平台 spark sql 一些即席查询服务的能力外,同时支持查询hudi表,并可以实现hudi表与hive表的联合查询, 同时对原有hive相关服务没有太大影响.
阅读全文
posted @ 2022-01-17 22:27 chaplinthink
阅读(691)
评论(0)
推荐(1)
编辑