spark配置(5)-独立应用程序

独立应用程序（Self-Contained Applications）

现在基于一个简单的APP，通过 Spark API 编写一个独立应用程序。

使用 Scala 编写的程序需要使用 sbt 进行编译打包，相应的，Java 程序使用 Maven 编译打包，而 Python 程序通过 spark-submit 直接提交。

PS:好像spark2.0支持RDD以外的一种数据集（DataSets），对python处理的性能有很大提升，几乎与scala性能旗鼓相当。

cd ~           # 进入用户主文件夹
mkdir ./sparkapp        # 创建应用程序根目录
mkdir -p ./sparkapp/src/main/scala     # 创建所需的文件夹结构

./sparkapp/src/main/scala 下建立一个名为 SimpleApp.scala 的文件：

/* SimpleApp.scala */
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
 
object SimpleApp {
  def main(args: Array[String]) {
    val logFile = "file:///usr/local/spark/README.md" // Should be some file on your system
    val conf = new SparkConf().setAppName("Simple Application")
    val sc = new SparkContext(conf)
    val logData = sc.textFile(logFile, 2).cache()
    val numAs = logData.filter(line => line.contains("a")).count()
    val numBs = logData.filter(line => line.contains("b")).count()
    println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
  }
}

该程序计算 /usr/local/spark/README 文件中包含 “a” 的行数和包含 “b” 的行数。

程序依赖 Spark API，因此我们需要通过 sbt 进行编译打包。

vim ./sparkapp/simple.sbt

添加：

name := "Simple Project"
version := "1.0"
scalaVersion := "2.10.5"
libraryDependencies += "org.apache.spark" %% "spark-core" % "1.6.1"

文件 simple.sbt 需要指明 Spark 和 Scala 的版本。

启动 Spark shell 的过程中可以看到

安装sbt

sudo mkdir /usr/local/sbt
sudo chown -R hadoop /usr/local/sbt     
cd /usr/local/sbt

cp /home/yuan/Downloads/sbt-launch\ \(1\).jar /usr/local/sbt/sbt-launch.jar
chmod u+x ./sbt

./sbt sbt-version

参考/转载：http://www.powerxing.com/spark-quick-start-guide/

来自为知笔记(Wiz)

posted @ 2016-06-25 07:42 iAthena 阅读(699) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

spark配置(5)-独立应用程序

公告