Scala高级语法-1

Spark课堂笔记

Spark生态圈：
Spark Core ： RDD（弹性分布式数据集）
Spark SQL
Spark Streaming
Spark MLLib：协同过滤，ALS，逻辑回归等等 --> 机器学习
Spark Graphx ：图计算

重点在前三章

-----------------Spark Core------------------------
一、什么是Spark？特点？
https://spark.apache.org/
Apache Spark™ is a unified analytics engine for large-scale data processing.

特点：快、易用、通用性、兼容性（完全兼容Hadoop）

快：快100倍（Hadoop 3 之前）
易用：支持多种语言开发
通用性：生态系统全。
易用性：兼容Hadoop

spark 取代 Hadoop

二、安装和部署Spark、Spark 的 HA

1、spark体系结构
Spark的运行方式

Yarn

Standalone：本机调试（demo）

Worker：从节点。每个服务器上，资源和任务的管理者。只负责管理一个节点。

执行过程：
一个Worker 有多个 Executor。 Executor是任务的执行者，按阶段（stage）划分任务。————> RDD

客户端：Driver Program 提交任务到集群中。

1、spark-submit
2、spark-shell

2、spark的搭建
（1）准备工作：JDK 配置主机名免密码登录
（2）伪分布式模式
在一台虚拟机上模拟分布式环境（Master和Worker在一个节点上）

export JAVA_HOME=/usr/java/jdk1.8.0_201
export SPARK_MASTER_HOST=node3
export SPARK_MASTER_PORT=7077

posted @ 2019-05-01 13:59 jareny 阅读(82) 评论(0) 编辑收藏举报

刷新页面返回顶部

Scala高级语法-1

公告