随笔档案「2021年8月」 - leesf

字节跳动基于Apache Hudi构建EB级数据湖实践

摘要：来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据量实践的分享。接下来将分为场景需求、设计选型、功能支持、性能调优、未来展望五部分介绍Hudi在字节跳动推荐系统中的实践。在推荐系统中，我们在两个场景下使用数据湖我们使用BigTable作为整个系统近线处理的数据阅读全文

posted @ 2021-08-29 09:26 leesf 阅读(1203) 评论(0) 推荐(0)

基于Apache Hudi构建数据湖的典型应用场景介绍

摘要：1. 传统数据湖存在的问题与挑战传统数据湖解决方案中，常用Hive来构建T+1级别的数据仓库，通过HDFS存储实现海量数据的存储与水平扩容，通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果，但依然存在如下现状问题：问题一：不支持事务由于传统大数据方案阅读全文

posted @ 2021-08-22 21:59 leesf 阅读(1774) 评论(0) 推荐(0)

重磅！AWS升级对Apache Hudi的集成

摘要：全球最大云厂商AWS的 Athena 团队又更新了 Athena 与 Apache Hudi 的集成，以支持新功能及最新的 0.8.0 社区版本。早在Apache Hudi还处于孵化阶段时，AWS Athena 便集成了 Hudi 以支持广大客户在S3上变更数据的需求，随着Hudi被全球各大云厂商集阅读全文

posted @ 2021-08-22 21:57 leesf 阅读(224) 评论(0) 推荐(0)

恭喜！Apache Hudi社区新晋多位Committer

摘要：1. 介绍经过Apache Hudi项目委员会讨论及投票决定，来自阿里云的Pengzhiwei和DannyChan成为Apache Hudi Committer，新晋人才也保证了Hudi社区在正确的轨道上不断发展。 Pengzhiwei持续在Apache Hudi社区贡献，开发了诸多特性，如Spa 阅读全文

posted @ 2021-08-01 10:39 leesf 阅读(338) 评论(0) 推荐(0)

leesf

掌控之中，才会成功；掌控之外，注定失败。

08 2021 档案

公告