随笔分类 -  大数据技术

大数据技术
摘要:数据湖(Data Lake)是Pentaho公司创始人及CTO James Dixon于2010年10月在2010年10月纽约Hadoop World大会上提出来的一种数据存储理念—即在系统或存储库中以自然格式存储数据的方法。数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化和非结构化数据。 阅读全文
posted @ 2022-01-06 14:56 xuzhujack 阅读(1580) 评论(0) 推荐(0) 编辑
摘要:一、Delta、Hudi、Iceberg对比概览 由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的Delta lake也显得格外亮眼。在没有delta数据湖之前,Databricks的客户一般会采用经典的lambda架构来构建他们的流批处理场景。 A 阅读全文
posted @ 2022-01-06 14:41 xuzhujack 阅读(11802) 评论(1) 推荐(1) 编辑
摘要:一、 Lambda架构 Storm的创始人Nathan Marz提出的Lambda架构是现在进行实时处理的常见架构。它设计的目的是以低延迟处理和更新数据、支持线性扩展和容错机制。速度层可以直接消费kafka中的数据,也可以对数据进行分层再消费都可以。如下图: 优点: 稳定,对于实时计算部分的计算成本 阅读全文
posted @ 2022-01-06 14:30 xuzhujack 阅读(4466) 评论(0) 推荐(0) 编辑
摘要:Google的三驾马车:Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据算法的基础! 2003年,Google发布Google File System论文,这是一个可扩展的分布式文件系统, 阅读全文
posted @ 2022-01-06 14:21 xuzhujack 阅读(1342) 评论(0) 推荐(0) 编辑
摘要:一、Presto Presto是Facebook开源的,完全基于内存的并⾏计算,分布式SQL交互式查询引擎是它被设计用来专门处理高速,实时的数据分析。Presto本身不存储数据,但是可以接入多种数据源,并且支持跨数据源的级联查询。与MySQL对比:MySQL首先是一个单点关系型数据库,其具有存储和计 阅读全文
posted @ 2021-12-07 12:58 xuzhujack 阅读(2592) 评论(0) 推荐(0) 编辑
摘要:Spark和MapReduce都是用来处理海量数据,但是在处理方式和处理速度上却不同。第一,spark处理数据是基于内存的,而MapReduce是基于磁盘处理数据的。 MapReduce是将中间结果保存到磁盘中,减少了内存占用,牺牲了计算性能。 Spark是将计算的中间结果保存到内存中,可以反复利用 阅读全文
posted @ 2021-12-07 10:41 xuzhujack 阅读(1608) 评论(0) 推荐(0) 编辑
摘要:Presto比Spark SQL更快或更慢,取决于您正在执行的查询类型,环境和引擎调整参数。 相同点 不同点 presto和spark sql都是MPP(massively parallel processing)架构(Presto/Impala/SparkSQL/Drill等), 有很好的数据量和 阅读全文
posted @ 2021-12-07 10:34 xuzhujack 阅读(1045) 评论(0) 推荐(0) 编辑
摘要:最近在做一个数据关联处理分析需求,涉及left表right表LEFT JOIN,发现LEFT JOIN后的结果条数比left表的记录多不少。 于是查看结果明细发现最终的结果,不少都是重复的。 最终确定是left 表和right表是一对多的关系,或者说right表有重复的记录也是一样的效果。 于在本地 阅读全文
posted @ 2021-11-25 11:39 xuzhujack 阅读(2805) 评论(0) 推荐(0) 编辑
摘要:spark-submit 命令:在spark安装目录的bin目录下有一个spark-submit脚本,可以用来提交运行spark程序如果配置了spark的path可以直接使用spark-submit命令 编译构建spark程序使用sbt 或者maven构建程序生成jar包spark-submit的使 阅读全文
posted @ 2021-10-21 14:48 xuzhujack 阅读(507) 评论(0) 推荐(0) 编辑

;
点击右上角即可分享
微信分享提示