学习笔记1

Spark特性
Spark使用简练优雅的Scala语言编写，基于Scala提供了交互式编程体验，同时提供多种方便易用的API。Spark遵循“一个软件栈满足不同应用场景”的设计理念，逐渐形成了一套完整的生态系统（包括 Spark提供内存计算框架、SQL即席查询（Spark SQL）、流式计算（Spark Streaming）、机器学习（MLlib）、图计算（Graph X）等），Spark可以部署在yarn资源管理器上，提供一站式大数据解决方案，可以同时支持批处理、流处理、交互式查询。

MapReduce计算模型延迟高，无法胜任实时、快速计算的需求，因而只适用于离线场景，Spark借鉴MapReduce计算模式，但与之相比有以下几个优势（快、易用、全面）：

Spark提供更多种数据集操作类型，编程模型比MapReduce更加灵活；
Spark提供内存计算，将计算结果直接放在内存中，减少了迭代计算的IO开销，有更高效的运算效率。
Spark基于DAG的任务调度执行机制，迭代效率更高；在实际开发中MapReduce需要编写很多底层代码，不够高效，Spark提供了多种高层次、简洁的API实现相同功能的应用程序，实现代码量比MapReduce少很多。
Spark作为计算框架只是取代了Hadoop生态系统中的MapReduce计算框架，它任需要HDFS来实现数据的分布式存储，Hadoop中的其他组件依然在企业大数据系统中发挥着重要作用。

Spark的不足：虽然Spark很快，但现在在生产环境中仍然不尽人意，无论扩展性、稳定性、管理性等方面都需要进一步增强；同时Spark在流处理领域能力有限，如果要实现亚秒级或大容量的数据获取或处理需要其他流处理产品。

Cloudera旨在让Spark流数据技术适用于80%的使用场合，就考虑到这一缺陷，在实时分析（而非简单数据过滤或分发）场景中，很多以前使用S4或Storm等流式处理引擎的实现已经逐渐被Kafka+Spark Streaming代替；

Hadoop现在分三块HDFS/MR/YARN，Spark的流行将逐渐让MapReduce、Tez走进博物馆；Spark只是作为一个计算引擎比MR的性能要好，但它的存储和调度框架还是依赖于HDFS/YARN，Spark也有自己的调度框架，但不成熟，基本不可商用。

Spark部署(on Yarn)
YARN实现了一个集群多个框架”，即在一个集群上部署一个统一的资源调度管理框架，并部署其他各种计算框架，YARN为这些计算框架提供统一的资源调度管理服务，并且能够根据各种计算框架的负载需求调整各自占用的资源，实现集群资源共享和资源弹性收缩；

并且，YARN实现集群上的不同应用负载混搭，有效提高了集群的利用率；不同计算框架可以共享底层存储，避免了数据集跨集群移动；

这里使用Spark on Yarn 模式部署，配置on yarn模式只需要修改很少配置，也不用使用启动spark集群命令，需要提交任务时候须指定在yarn上。

Spark运行需要Scala语言，须下载Scala和Spark并解压到家目录，设置当前用户的环境变量（~/.bash_profile），增加SCALA_HOME和SPARK_HOME路径并立即生效；启动scala命令和spark-shell命令验证是否成功；Spark的配置文件修改按照官网教程不好理解，这里完成的配置参照博客及调试。

Spark的需要修改两个配置文件：spark-env.sh和spark-default.conf，前者需要指明Hadoop的hdfs和yarn的配置文件路径及Spark.master.host地址，后者需要指明jar包地址；

spark-env.sh配置文件修改如下：

export JAVA_HOME=/home/stream/jdk1.8.0_144

export SCALA_HOME=/home/stream/scala-2.11.12

export HADOOP_HOME=/home/stream/hadoop-3.0.3

export HADOOP_CONF_DIR=/home/stream/hadoop-3.0.3/etc/hadoop

export YARN_CONF_DIR=/home/stream/hadoop-3.0.3/etc/hadoop

export SPARK_MASTER_HOST=xx

export SPARK_LOCAL_IP=xxx

spark-default.conf配置修改如下：

//增加jar包地址

spark.yarn.jars=hdfs://1xxx/spark_jars/*
该设置表明将jar地址定义在hdfs上，必须将~/spark/jars路径下所有的jar包都上传到hdfs的/spark_jars/路径(hadoop hdfs –put ~/spark/jars/*)，否则会报错无法找到编译jar包错误；