作业7
park最主要的优点是()
2. (多选题) Spark具有的主要特点包括:
运行模式多样
通用性
3. (多选题) Scala的特性包括:
4. (多选题) Spark所采用Executor的优点包括:
Executor中有一个BlockManager存储模块,有效减少IO开销
利用多线程来执行具体的任务
5. (多选题) Apache软件基金会最重要的三大分布式计算系统开源项目
Spark
二. 单选题(共1题,14.3分)
6. (单选题) 在实际应用中,大数据处理不包括哪些类型?
基于离线数据的处理
三. 简答题(共1题,14.3分)
7. (简答题)
编程实践:参考教程https://dblab.xmu.edu.cn/blog/4322/,任意选择以下一种方式通过Spark API 编写一个独立应用程序。
(一)使用sbt对Scala独立应用程序进行编译打包
(二)使用Maven对Java独立应用程序进行编译打包
(三)使用Maven对Scala独立应用程序进行编译打包
并截图给出代码及运行结果。
二
-
先在linux系统中安装spark 我安装的目录为/export/server/spark
2.运行spark:先运行hadoop,start-all.sh 启动hadoop 然后进入spark目录下:cd /export/server/spark 然后执行 bin/spark-shell启动spark
3.加载文本文件:spark创建sc,可以加载本地文件和HDFS文件创建RDD。这里用Spark自带的本地文件README.md文件测试。
val textFile = sc.textFile("file:///export/server/spark/README.md")
4.下载maven
我安装的目录为:/usr/local/maven
5.创建java文件的根目录
mkdir -p ./sparkapp2/src/main/java
6.编写代码和pom.xml文件
7.使用maven进行编译打包
8.利用spark命令:通过spark-submit运行程序