05 2023 档案
摘要:Apache Hudi 社区一直在快速发展,各公司正在寻找方法来利用其强大的功能来有效地摄取和管理大规模数据集。 每周社区都会收到一些常见问题,最常见的问题与 Hudi 如何执行更新插入有关,以确保以低延迟访问最新数据。 # 选择合适的存储表类型 快速更新插入的主要考虑因素之一是选择正确的存储表类型
阅读全文
摘要:沃尔玛系统产生了世界上最大和最多样化的数据集之一,每天数据增长超 10 PB。 来自许多不同的来源及其支持的后端系统,一系列大量的业务事件流被发送到主要由 Apache Kafka 支持的消息传递层。 沃尔玛团队强烈希望扩展近乎实时的决策制定,如事件驱动架构的显着增加、来自生产数据库的变更数据捕获
阅读全文