摘要:1. Scala简介 1.1 概述 Scala(斯嘎拉)这个名字来源于"Scalable Language(可伸缩的语言)", 它是一门基于JVM的多范式编程语言, 通俗的说: Scala是一种运行在JVM上的函数式的面向对象语言. 之所以这样命名, 是因为它的设计目标是: 随着用户的需求一起成长.
阅读全文
|
01 2024 档案
摘要:1. Scala简介 1.1 概述 Scala(斯嘎拉)这个名字来源于"Scalable Language(可伸缩的语言)", 它是一门基于JVM的多范式编程语言, 通俗的说: Scala是一种运行在JVM上的函数式的面向对象语言. 之所以这样命名, 是因为它的设计目标是: 随着用户的需求一起成长.
阅读全文
摘要:
阅读全文
摘要:8.2 分布式代码执行分析 所以对于刚刚的WordCount代码,简单分析后得知: SparkContext对象的构建 以及 Spark程序的退出, 由 Driver 负责执行 具体的数据处理步骤, 由Executor在执行. 其实简单来说就是: 非数据处理的部分由Driver工作
阅读全文
摘要:6.2 什么是PySpark 我们前面使用过bin/pyspark 程序, 要注意, 这个只是一个应用程序, 提供一个Python解释器执行环境来运行Spark任务 我们现在说的PySpark, 指的是Python的运行类库, 是可以在Python代码中:import pyspark PySpark
阅读全文
摘要:Spark环境搭建-Local 本质: 启动一个JVM Process进程(一个进程里面有多个线程),执行任务Task 2.2 基本原理 Local模式可以限制模拟Spark集群环境的线程数量, 即Local[N] 或 Local[*] 其中N代表可以使用N个线程,每个线程拥有一个cpu c
阅读全文
摘要:1.1Spark是什么定义:ApacheSpark是用于大规模数据(large-scala data) 处理的统一(unified) 分析引擎 Soark 借鉴 MnReduce 思相发展而来,保图了其价布式并行计算的代占开改进了其明显的缺路。让中间数样存修在内存中接高了运行速度、并提供丰富的操作数
阅读全文
|