Spark快速入门(1)
1 安装Spark
首先,到 https://spark.apache.org/downloads.html 选择最新的 Spark 版本和 Hadoop 版本(实际上我们暂时用不上 Hadoop,所以任何版本都行),然后下载压缩包。
完毕后,将其中的文件夹解压到某个特定的位置,比如,我将解压出的文件夹命名为spark
,并放在我的主文件夹 /home/qyx
里,这样我就可以执行
/home/qyx/spark/bin/spark-shell
来运行 Spark 的终端了。为了避免每次打开 Spark 都要输入很长一串的路径,可以将 Spark 的 bin
目录加入到系统路径中,例如我在 ~/.bashrc
文件中写入了
export PATH=$PATH:/home/qyx/spark/bin
Mac下环境变量配置见 http://www.cnblogs.com/yxzfscg/p/4993185.html
于是安装过程就这么愉快地结束了。
2 安装sbt
Mac上可以直接使用 brew install sbt
3 简单的测试例子
/* SimpleApp.scala */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object SimpleApp { def main(args: Array[String]) { val logFile = "YOUR_SPARK_HOME/README.md" // Should be some file on your system val conf = new SparkConf().setAppName("Simple Application") val sc = new SparkContext(conf) val logData = sc.textFile(logFile, 2).cache() val numAs = logData.filter(line => line.contains("a")).count() val numBs = logData.filter(line => line.contains("b")).count() println("Lines with a: %s, Lines with b: %s".format(numAs, numBs)) } }
4 sbt的打包文件
name := "Simple Project" version := "1.0" scalaVersion := "2.11.5" libraryDependencies += "org.apache.spark" %% "spark-core" % "1.4.0"
5 为了保证sbt工作正常,我们需要将SimpleApp.scala和simple.sbt放入典型的sbt项目布局的文件夹中。 如此一来我们将应用代码可以打包成一个jar文件, 然后使用spark-submit脚本来运行此程序。
# Your directory layout should look like this $ find . . ./simple.sbt ./src ./src/main ./src/main/scala ./src/main/scala/SimpleApp.scala # Package a jar containing your application $ sbt package ...
$ YOUR_SPARK_HOME/bin/spark-submit \ --class "SimpleApp" \ --master local[4] \ target/scala-2.10/simple-project_2.10-1.0.jar ...
http://spark.apache.org/docs/latest/quick-start.html