摘要: 数据湖(Data Lake)是Pentaho公司创始人及CTO James Dixon于2010年10月在2010年10月纽约Hadoop World大会上提出来的一种数据存储理念—即在系统或存储库中以自然格式存储数据的方法。数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化和非结构化数据。 阅读全文
posted @ 2022-01-06 14:56 xuzhujack 阅读(1496) 评论(0) 推荐(0) 编辑
摘要: 一、Delta、Hudi、Iceberg对比概览 由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的Delta lake也显得格外亮眼。在没有delta数据湖之前,Databricks的客户一般会采用经典的lambda架构来构建他们的流批处理场景。 A 阅读全文
posted @ 2022-01-06 14:41 xuzhujack 阅读(11362) 评论(1) 推荐(1) 编辑
摘要: 一、 Lambda架构 Storm的创始人Nathan Marz提出的Lambda架构是现在进行实时处理的常见架构。它设计的目的是以低延迟处理和更新数据、支持线性扩展和容错机制。速度层可以直接消费kafka中的数据,也可以对数据进行分层再消费都可以。如下图: 优点: 稳定,对于实时计算部分的计算成本 阅读全文
posted @ 2022-01-06 14:30 xuzhujack 阅读(4225) 评论(0) 推荐(0) 编辑
摘要: Google的三驾马车:Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据算法的基础! 2003年,Google发布Google File System论文,这是一个可扩展的分布式文件系统, 阅读全文
posted @ 2022-01-06 14:21 xuzhujack 阅读(1199) 评论(0) 推荐(0) 编辑
;