04 2020 档案

摘要:1. 简介 Apache Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、 阅读全文
posted @ 2020-04-28 09:17 leesf 阅读(1350) 评论(0) 推荐(0) 编辑
摘要:1. 引入 云上对象存储的廉价让不少公司将其作为主要的存储方案,而Hudi作为数据湖解决方案,支持对象存储也是必不可少。之前AWS EMR已经内置集成Hudi,也意味着可以在S3上无缝使用Hudi。当然国内用户可能更多使用阿里云OSS作为云上存储方案,那么如果用户想基于OSS构建数据湖,那么Hudi 阅读全文
posted @ 2020-04-25 14:58 leesf 阅读(1553) 评论(0) 推荐(0) 编辑
摘要:1. 项目背景 传统数仓的组织架构是针对离线数据的OLAP(联机事务分析)需求设计的,常用的导入数据方式为采用sqoop或spark定时作业逐批将业务库数据导入数仓。随着数据分析对实时性要求的不断提高,按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的(准)实时 阅读全文
posted @ 2020-04-18 22:21 leesf 阅读(5204) 评论(0) 推荐(2) 编辑
摘要:感谢 Apache Hudi contributor:王祥虎 翻译&供稿。 欢迎关注微信公众号:ApacheHudi 本文将介绍Apache Hudi的基本概念、设计以及总体基础架构。 1.简介 Apache Hudi(简称:Hudi)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两 阅读全文
posted @ 2020-04-16 05:34 leesf 阅读(17968) 评论(0) 推荐(4) 编辑