06 2021 档案

摘要:1. 背景 多维分析是大数据分析的一个典型场景,这种分析一般带有过滤条件。对于此类查询,尤其是在高基字段的过滤查询,理论上只我们对原始数据做合理的布局,结合相关过滤条件,查询引擎可以过滤掉大量不相关数据,只需读取很少部分需要的数据。例如我们在入库之前对相关字段做排序,这样生成的每个文件相关字段的mi 阅读全文
posted @ 2021-06-20 20:09 leesf 阅读(2412) 评论(0) 推荐(0) 编辑
摘要:Apache Hudi提供了MVCC并发模型,保证写入端和读取端之间快照级别隔离。在本篇博客中我们将介绍如何配置来管理多个文件版本,此外还将讨论用户可使用的清理机制,以了解如何维护所需数量的旧文件版本,以使长时间运行的读取端不会失败。 1. 回收空间以控制存储成本 Hudi 提供不同的表管理服务来管 阅读全文
posted @ 2021-06-17 23:44 leesf 阅读(2129) 评论(0) 推荐(0) 编辑
摘要:Apache Hudi是一个开源数据湖管理平台,用于简化增量数据处理和数据管道开发,该平台可以有效地管理业务需求,例如数据生命周期,并提高数据质量。Hudi的一些常见用例是记录级的插入、更新和删除、简化文件管理和近乎实时的数据访问以及简化的CDC数据管道开发。 本期SOFTWARE DAILY我们有 阅读全文
posted @ 2021-06-16 23:40 leesf 阅读(528) 评论(0) 推荐(0) 编辑
摘要:Q1. What are you trying to do? Articulate your objectives using absolutely no jargon. Q2. What problem is this proposal NOT designed to solve? Q3. How 阅读全文
posted @ 2021-06-15 22:48 leesf 阅读(360) 评论(0) 推荐(0) 编辑