SparkCore基础（二）

* SparkCore基础（二）

继续探讨SparkCore，开门见山，不多废话。

SparkApplication结构探讨

包含关系：

之前我们运行过很多App了，其实每一个App都包含若干个Job任务；

而Job任务呢，一般都是由RDD的Action动作发出的eg：first、count、collect等等；

一个Job任务包含多个Stage，各个Stage之间是互相依赖的，比如，第一个stage没有走完，是不会走第二个stage的，对于同一个stage，所有的task的业务逻辑相同，而处理的数据不同；

一个Stage包含多个Task。

运行构成：

对于Spark Application的集群运行情况来讲，都有两个部分组成

** Driver：每个应用都有一个driver，在其中的main方法中实例化SparkContext，从而创建RDD，然后向Master或者ResourceManager申请资源来运行Executor，调度Job任务

** Executor：相当于MapReduce中的Map Task一样，是一个JVM进程，用于运行Task，以线程形式运行

下面是Spark集群的一些概念简述：

RDD进一步探讨

RDD是什么：

** 是一系列分区的数据集合，类似于Hadoop中的split

** 每个分区都可以应用某个函数去运算

** RDD之间具有依赖关系，例如，RDD1 转换为RDD2时，那么RDD2就依赖于RDD1

** 可以指定key-value形式的RDD的分区规则，比如hash

** RDD可以选择最优的读取数据的位置，比如：从内存读？从本地读？或者设置了多个副本，决定从哪个副本读数据是最优的。

IDEA工具开发Spark

Step1、创建一个Scala项目

Step2、创建项目名称以及指定路径后直接Finish

Step3、在File--Project Structure选项的Modules中创建目录结构如图，注意文件夹图标样式，main和test中的resources文件夹图标是有区别的

Step4、在Libraries中点击加号导入Spark相关依赖Jar（这里我导入的Jar是CDH-Spark根目录下的lib目录下的Jar，这里不需要导入example相关Jar）

Step5、将HDFS的两个配置文件拷入到resources目录下

Step6、创建一个Scala-object，编写代码如下：

运行即可

IDEA打包SparkJar

我们也可以使用IDEA打包编写好的SparkJar包然后使用spark-submit命令提交任务

Step1、点击Artifacts标签后，点击加号，选择JAR-from modules from dependencies

Step2、点击红框内容后，出现蓝框内容

Step3、搞定后，删除掉关于Spark和Hadoop的相关依赖，打包自己的工程时，不需要将Spark和Hadoop的Jar也打包入你的工程里，这样会增加你的工程的体积(官方描述：The user's jar should never include Hadoop or Spark libraries, however, these will be added at runtime.)，点击减号删除到如下所示：

Step4、OK后，选择Build-Build Artifacts-Build，然后去对应目录下，拷贝出Build好的Jar到Linux，什么？不知道生成的Jar在哪？你看看上图中Output directory属性

Step5、运行你的Jar

$ bin/spark-submit --master spark://z01:7077 /home/z/Desktop/FirstSpark.jar

Spark在Yarn上运行

相关文档：http://spark.apache.org/docs/1.6.1/running-on-yarn.html

运行Spark应用有两种模式：

1、在Client端所在节点运行

这种情况比较适用于调试应用程序，比如：

Yarn：

bin/spark-submit \

--master yarn \

--deploy-mode client \

/home/z/Desktop/FirstSpark.jar

2、在Cluster中运行

Yarn：

$ bin/spark-submit \

--master yarn \

--deploy-mode cluster \

/home/z/Desktop/FirstSpark.jar

以上两种模式的区别在于：

Client模式：

Spark App的Driver请求ResourceManager，产生一个ApplicationMaster，然后由ApplicationMaster向ResourceManager申请资源，ResourceManager分配Container给NodeManager，然后由NodeManager运行其上的Executor。

Cluster模式：

Driver运行节点即ApplicationMaster节点，后面的操作你懂得，跟Client模式差不多了。

注意：spark-shell只能在client模式下运行，比如默认deploty-mode其实如下

Standalone：

$ bin/spark-shell --master spark://z01:7077 --deploy-mode client

Spark的广播使用

广播这个概念在不同的计算机领域中都有涉及，那么在Spark中，如果你想过滤掉一些特殊符号，在这样的情境中，就可以使用广播（不使用行不行？行！但消耗更多。）首先我们先上代码：

代码中，注意红框部分，我们使用广播过滤掉了一些特殊字符的统计。如果不适用广播，意味着list特殊字符集合中的所有信息都需要拷贝到所有的数据分区中，如果使用了广播，只需要将数据广播到指定的Executor中即可。

Spark中Maven项目的构建

在构建项目时，可以选择使用mvn命令构建，当然也可以使用IDEA的可视化界面构建，那么我们下面分别探讨两种方式：

方式一：环境-Linux（不推荐，当然也要看喜好）

方式二：环境-Windows（推荐）

Step1、打开IDEA工具，选择Create new project，选择Maven，点击Create from archetype，留意红框内容

Step2、Next后，不必解释过多了吧？如图：

Step3、选择你的Maven仓库地址，默认在.m2目录下，可以自己指定，稍后会自动下载相关依赖

Step4、Next后，编辑项目的一些基本信息，finish即可，如图：

Step5、打开pom.xml，配置一些后边课程我们可能会用到的依赖，剩下的目录配置等等，和之前的我们学过的一样

Step6、最后完成时，你会发现导入的jar包在左边的External Libraries中看到如下内容

最后，在刚创建好的Maven工程中写一个WordCount试试？：）

* 总结

学会这些基础操作后，可以进行更多的拓展，比如分析一下apache的日志？请参看官方完整案例。

个人微博：http://weibo.com/seal13

QQ大数据技术交流群（广告勿入）：476966007



作者：Z尽际
链接：https://www.jianshu.com/p/ec5b8869f2f4
來源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

posted @ 2018-01-12 21:21 王振龙阅读(264) 评论(0) 编辑收藏举报

刷新页面返回顶部

王振龙

唯一不会变的就是改变