随笔档案「2020年5月」 - leesf

Apache Hudi在医疗大数据中的应用

摘要：本篇文章主要介绍Hudi在医疗大数据中的应用，主要分为５个部分进行介绍：1. 建设背景，2. 为什么选择Hudi，3. Hudi数据同步，4. 存储类型选择及查询优化，5. 未来发展与思考。 1. 建设背景我们公司主要为医院建立大数据应用平台，需要从各个医院系统中抽取数据建立大数据平台。如医院信息阅读全文

posted @ 2020-05-29 23:54 leesf 阅读(1468) 评论(0) 推荐(0)

填坑！线上Presto查询Hudi表异常排查

摘要：1. 引入线上用户反馈使用Presto查询Hudi表出现错误，而将Hudi表的文件单独创建parquet类型表时查询无任何问题，关键报错信息如下报Hudi表中文件格式不是合法的parquet格式错误。 2. 问题复现开始根据用户提供的信息，模拟线上Hudi数据集大小、Presto和Hudi版本阅读全文

posted @ 2020-05-23 18:39 leesf 阅读(2580) 评论(0) 推荐(0)

Apache Hudi典型应用场景知多少？

摘要：1.近实时摄取将数据从外部源如事件日志、数据库提取到 "Hadoop数据湖" 中是一个很常见的问题。在大多数Hadoop部署中，一般使用混合提取工具并以零散的方式解决该问题，尽管这些数据对组织是非常有价值的。对于RDBMS摄取，Hudi通过Upserts提供了更快的负载，而非昂贵且低效的批量负载阅读全文

posted @ 2020-05-19 18:49 leesf 阅读(3046) 评论(0) 推荐(0)

真香！PySpark整合Apache Hudi实战

摘要：1. 准备 Hudi支持Spark 2.x版本，你可以点击如下 "链接" 安装Spark，并使用pyspark启动 spark avro模块需要在 packages显示指定 spark avro和spark的版本必须匹配本示例中，由于依赖spark avro_2.11，因此使用的是scala2.1 阅读全文

posted @ 2020-05-10 16:12 leesf 阅读(1855) 评论(0) 推荐(0)

Apache Hudi又双叕被国内顶级云服务提供商集成了！

摘要：是的，最近国内云服务提供商腾讯云在其EMR V2.2.0版本中优先集成了Hudi 0.5.1版本作为其云上的数据湖解决方案对外提供服务 Apache Hudi 在 HDFS 的数据集上提供了插入更新和增量拉取的流原语。一般来说，我们会将大量数据存储到 HDFS，新数据增量写入，而旧数据鲜有改动，特阅读全文

posted @ 2020-05-09 13:58 leesf 阅读(2107) 评论(0) 推荐(0)

leesf

掌控之中，才会成功；掌控之外，注定失败。

05 2020 档案

公告