随笔分类 -  论文学习

摘要:在Delta Lake官网上提到的一篇新一代湖仓架构的论文. 这篇论文由Databricks团队2021年发表于CIDR会议. 这个会议是对sigmod和vldb会议的补充. 可以看到这篇论文和前一篇Delta Lake: High-Performance ACID Table Storage ov 阅读全文
posted @ 2023-07-15 21:40 Aitozi 阅读(277) 评论(0) 推荐(0) 编辑
摘要:论文发表于 2020年, 研究数据湖产品的很好的学习资料. # 概要 开篇很明确的表明了为什么要做Delta lake这样一个产品. Databricks尝试将数据仓库直接架在云上对象存储之上, 这种尝试的过程中遇到了对象存储的一些问题, 为了解决这些问题, 提出了Delta lake这套技术方案. 阅读全文
posted @ 2023-07-13 23:07 Aitozi 阅读(309) 评论(0) 推荐(1) 编辑
摘要:本文是阅读 LinkedIn 公司2020年发表的论文 Magnet: Push-based Shuffle Service for Large-scale Data Processing 一点笔记。 什么是Shuffle 以上图为例,在一个DAG的执行图中,节点与节点之间的数据交换就是Shuffl 阅读全文
posted @ 2022-10-21 13:42 Aitozi 阅读(491) 评论(0) 推荐(0) 编辑
摘要:这是Facebook在FlinkForward2021上的一个talk, 主题如下 在前面的论文中分析了Facebook的实时计算引擎的设计和选型的考量,里面提到了Facebook的实时计算引擎为了满足易用性和性能不同维度的需求,研发了多套实时计算系统如Puma``Stylus``Swift分别使用 阅读全文
posted @ 2022-02-22 23:55 Aitozi 阅读(324) 评论(0) 推荐(0) 编辑
摘要:概要 这篇论文发表于2016年,主要是介绍Facebook内部的流式计算平台的设计与思考,对于流式计算的关键特性的实现选型上进行深度对比分析。 流式计算系统5个衡量指标 文中提到有5个重要的考量部分 易用性。用户使用什么语言来开发,例如SQL,C++,Java,用户开发,测试,发布一个应用需要花费多 阅读全文
posted @ 2022-02-21 00:14 Aitozi 阅读(216) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示