2022 年 8月随笔档案 - hai_sir

07-Spark之RDD

摘要：一:分布式程序的设计思想 step1：读取数据Input 代码中：要指定读取数据文件的位置，然后返回一个代表这个输入数据的变量将要处理的数据拆分成N份，每一份数据放在不同机器上相当于接一个大活，干活的是很多人一起干活，将一个大的任务拆分成很多小任务给每个人分 step2：处理数据Transfor 阅读全文

posted @ 2022-08-14 22:06 hai_sir 阅读(90) 评论(0) 推荐(0) 编辑

06-Spark on YARN的设计

摘要：实施问题：为什么要将Spark的程序运行在YARN上，不运行在自带的Standalone集群上？实现统一化资源管理工作中的计算集群大多数情况下只有1套集群如果Hadoop生态的程序，例如MR、Hive、Sqoop、Oozie等使用YARN来计算而Spark的程序单独用Standalone 阅读全文

posted @ 2022-08-14 22:02 hai_sir 阅读(36) 评论(0) 推荐(0) 编辑

05-集群提交：spark-submit脚本

摘要：结构: 命令 + 选项 + 文件 + 参数基础选项：优先级：代码中配置【程序特有】 > 参数选项【运行模式、程序名称、资源选项】 > 配置文件【公共配置】 --master：用于指定程序的运行的模式：Local、Standalone、YARN、Mesos、K8s local[N]：使用本地模式，给阅读全文

posted @ 2022-08-14 21:50 hai_sir 阅读(185) 评论(0) 推荐(0) 编辑

04-Standalone集群架构

摘要：分布式主从架构：整体的功能及架构高度类似于YARN【ResourceManager、NodeManager】分布式架构普通分布式主从架构：HDFS、YARN、Spark、Flink、Hbase => 主节点单点故障问题解决主节点单点故障问题：HA高可用架构来解决公平分布式主从架构：Zooke 阅读全文

posted @ 2022-08-14 21:43 hai_sir 阅读(55) 评论(0) 推荐(0) 编辑

03-Spark的计算流程设计

摘要：MR的计算流程设计 step1：读取数据：Input 功能一：实现分片，将读取到的数据进行划分，将不同的数据才能分给不同Task 功能二：转换KV step2：处理数据：Map、Shuffle、Reduce Map：负责数据处理：一对一的转换，多对一的过滤功能一：构建分布式并行Task，每个分片对阅读全文

posted @ 2022-08-14 21:39 hai_sir 阅读(213) 评论(0) 推荐(0) 编辑

02-Spark的应用及使用

摘要：应用场景离线场景：实现离线数据仓库中的数据清洗、数据分析、即席查询等应用比较成熟，工作中主要的应用场景使用Spark对各种数据源数据进行处理：Hive、RDBMS、文件 Hive数仓常见处理引擎：Spark、Impala、Presto Impala：底层是C语言，性能最好，SQL开发，集成Hi 阅读全文

posted @ 2022-08-14 21:34 hai_sir 阅读(600) 评论(0) 推荐(0) 编辑

01-Spark的功能及特点

摘要：定义：基于内存式计算的分布式的==统一化==的数据分析引擎功能：多语言数据分析引擎工具栈实现离线数据批处理：类似于MapReduce、Pandas，写代码做处理实现交互式即时数据查询：类似于Hive、Presto、Impala，使用SQL做即席查询分析实现实时数据处理：类似于Storm、Fl 阅读全文

posted @ 2022-08-14 21:32 hai_sir 阅读(619) 评论(0) 推荐(0) 编辑

zhang_Sir

08 2022 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

阅读排行榜