2022 年 4月随笔档案 - 大数据老司机

大数据Hadoop之——Spark on Hive 和 Hive on Spark的区别与实现

摘要：一、Spark on Hive 和 Hive on Spark的区别 1）Spark on Hive Spark on Hive 是Hive只作为存储角色，Spark负责sql解析优化，执行。这里可以理解为Spark 通过Spark SQL 使用Hive 语句操作Hive表 ,底层运行的还是 Spa 阅读全文

posted @ 2022-04-30 08:34 大数据老司机阅读(6420) 评论(1) 推荐(0) 编辑

大数据Hadoop之——Spark SQL+Spark Streaming

摘要：一、Spark SQL概述 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了两个编程抽象叫做DataFrame和DataSet并且作为分布式SQL查询引擎的作用，其实也是对RDD的再封装。大数据Hadoop之——计算引擎Spark，官方文档：https://spark.apach 阅读全文

posted @ 2022-04-23 17:38 大数据老司机阅读(2083) 评论(0) 推荐(1) 编辑

大数据Hadoop之——Spark集群部署（Standalone）

摘要：一、Spark概述 Spark基础概念和原理讲解可以参考我上篇博文：大数据Hadoop之——计算引擎Spark 二、Spark的运行模式 1）Standalone（本章讲解）独立模式，自己独立一套集群(master/client/slave)，Spark 原生的简单集群管理器，自带完整的服务，阅读全文

posted @ 2022-04-16 15:36 大数据老司机阅读(6141) 评论(0) 推荐(1) 编辑

大数据Hadoop之——计算引擎Spark

摘要：一、概述 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于阅读全文

posted @ 2022-04-09 17:54 大数据老司机阅读(3388) 评论(0) 推荐(1) 编辑

大数据Hadoop之——数据仓库Hive

摘要：一、概述 Hive是基于Hadoop的一个数据仓库（Data Aarehouse，简称数仓、DW），可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。是用于存储、分析、报告的数据系统。在Hadoop生态系统中，HDFS用于存储数据，Yarn用于资源管理，MapReduce用于数据处阅读全文

posted @ 2022-04-05 23:17 大数据老司机阅读(3671) 评论(0) 推荐(0) 编辑

大数据Hadoop原理介绍+安装+实战操作（HDFS+YARN+MapReduce）

摘要：一、Hadoop概述 Hadoop是Apache软件基金会下一个开源分布式计算平台，以HDFS（Hadoop Distributed File System）、MapReduce（Hadoop2.0加入了YARN，Yarn是资源调度框架，能够细粒度的管理和调度任务，还能够支持其他的计算框架，比如sp 阅读全文

posted @ 2022-04-05 00:59 大数据老司机阅读(3236) 评论(0) 推荐(0) 编辑

大数据Hadoop生态系统介绍

摘要：一、概述 Hadoop是Apache软件基金会下一个开源分布式计算平台，以hdfs（Hadoop Distributed File System）、MapReduce（Hadoop2.0加入了YARN，Yarn是资源调度框架，能够细粒度的管理和调度任务，还能够支持其他的计算框架，比如spark）为核阅读全文

posted @ 2022-04-04 19:11 大数据老司机阅读(1495) 评论(0) 推荐(0) 编辑

技术栈

匠人精神，持之以恒！

04 2022 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论