12 2019 档案
摘要:这一节我们将介绍使用 "DeltaStreamer" 工具从外部源甚至其他Hudi数据集摄取新更改的方法, 以及通过使用 "Hudi数据源" 的upserts加快大型Spark作业的方法。 对于此类数据集,我们可以使用各种查询引擎 "查询" 它们。 写操作 在此之前,了解Hudi数据源及delta
阅读全文
摘要:Apache Hudi(发音为“Hoodie”)在DFS的数据集上提供以下流原语 插入更新 (如何改变数据集?) 增量拉取 (如何获取变更的数据?) 在本节中,我们将讨论重要的概念和术语,这些概念和术语有助于理解并有效使用这些原语。 时间轴 在它的核心,Hudi维护一条包含在不同的 时间所有对数据集
阅读全文