04 2022 档案

摘要:一、Spark on Hive 和 Hive on Spark的区别 1)Spark on Hive Spark on Hive 是Hive只作为存储角色,Spark负责sql解析优化,执行。这里可以理解为Spark 通过Spark SQL 使用Hive 语句操作Hive表 ,底层运行的还是 Spa 阅读全文
posted @ 2022-04-30 08:34 大数据老司机 阅读(6420) 评论(1) 推荐(0) 编辑
摘要:一、Spark SQL概述 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象叫做DataFrame和DataSet并且作为分布式SQL查询引擎的作用,其实也是对RDD的再封装。大数据Hadoop之——计算引擎Spark,官方文档:https://spark.apach 阅读全文
posted @ 2022-04-23 17:38 大数据老司机 阅读(2083) 评论(0) 推荐(1) 编辑
摘要:一、Spark概述 Spark基础概念和原理讲解可以参考我上篇博文:大数据Hadoop之——计算引擎Spark 二、Spark的运行模式 1)Standalone(本章讲解) 独立模式,自己独立一套集群(master/client/slave),Spark 原生的简单集群管理器, 自带完整的服务, 阅读全文
posted @ 2022-04-16 15:36 大数据老司机 阅读(6141) 评论(0) 推荐(1) 编辑
摘要:一、概述 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于 阅读全文
posted @ 2022-04-09 17:54 大数据老司机 阅读(3388) 评论(0) 推荐(1) 编辑
摘要:一、概述 Hive是基于Hadoop的一个数据仓库(Data Aarehouse,简称数仓、DW),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。是用于存储、分析、报告的数据系统。 在Hadoop生态系统中,HDFS用于存储数据,Yarn用于资源管理,MapReduce用于数据处 阅读全文
posted @ 2022-04-05 23:17 大数据老司机 阅读(3671) 评论(0) 推荐(0) 编辑
摘要:一、Hadoop概述 Hadoop是Apache软件基金会下一个开源分布式计算平台,以HDFS(Hadoop Distributed File System)、MapReduce(Hadoop2.0加入了YARN,Yarn是资源调度框架,能够细粒度的管理和调度任务,还能够支持其他的计算框架,比如sp 阅读全文
posted @ 2022-04-05 00:59 大数据老司机 阅读(3236) 评论(0) 推荐(0) 编辑
摘要:一、概述 Hadoop是Apache软件基金会下一个开源分布式计算平台,以hdfs(Hadoop Distributed File System)、MapReduce(Hadoop2.0加入了YARN,Yarn是资源调度框架,能够细粒度的管理和调度任务,还能够支持其他的计算框架,比如spark)为核 阅读全文
posted @ 2022-04-04 19:11 大数据老司机 阅读(1495) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示