摘要: 在上一篇文章中我们主要讲解了iceberg各个元数据文件中的数据组织形式,那么这些元数据是怎么生成的呢?如何通过spark写入iceberg?本文将带大家简单了解一下使用spark 2.4.7 batch写入iceberg的整体流程。 spark写入示例 本文主要演示如何使用iceberg hado 阅读全文
posted @ 2021-10-25 16:40 奇葩兔子 阅读(2166) 评论(0) 推荐(0) 编辑
摘要: Apache Iceberg作为一款新兴的数据湖解决方案在实现上高度抽象,在存储上能够对接当前主流的HDFS,S3文件系统并且支持多种文件存储格式,例如Parquet、ORC、AVRO。相较于Hudi、Delta与Spark的强耦合,Iceberg可以与多种计算引擎对接,目前社区已经支持Spark读 阅读全文
posted @ 2021-10-25 16:30 奇葩兔子 阅读(3045) 评论(0) 推荐(0) 编辑