摘要: 1.为应用构建起基本的运行环境,即由Driver创建一个SparkContext进行资源的申请、任务的分配和监控 2.资源管理器为Executor分配资源,并启动Executor进程 3. sparkContext根据RDD的依赖关系构建DAG图,DAG图提交给DAGScheduler解析成Stag 阅读全文
posted @ 2022-01-18 21:45 风吹过半夏 阅读(70) 评论(0) 推荐(0) 编辑
摘要: 基本概念: RDD:是Resillient Distributed Dataset(弹性分布式数据集)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型 DAG:是Directed Acyclic Graph(有向无环图)的简称,反映RDD之间的依赖关系 Executor:是运行在 阅读全文
posted @ 2022-01-18 21:31 风吹过半夏 阅读(42) 评论(0) 推荐(0) 编辑
摘要: 在实际应用中,大数据处理主要包括以下三个类型: 复杂的批量数据处理,通常时间跨度在数十分钟到数小时之间 基于历史数据的交互式查询,通常时间跨度在数十秒到数分钟之间 基于实时数据流的数据处理,通常时间跨度在数百毫秒到数秒之间 当同时存在以上三种场景时,就需要同时部署三种不同的软件: 复杂的批量数据处理 阅读全文
posted @ 2022-01-18 20:49 风吹过半夏 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 实验 2 Scala 编程初级实践 1.计算级数 请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn,直到 Sn 刚好大于或等于 q 为止,其中 q 为大于 0 的整数,其值通过键盘输入。 例 如 , 若 q 的 值 为 50.0 , 则 输 出 应 为 : Sn=50.416695 。 请 阅读全文
posted @ 2022-01-18 19:21 风吹过半夏 阅读(450) 评论(0) 推荐(0) 编辑