spark大数据处理之hello world
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,关于它的介绍网上随便一搜都是一大堆,在此就不再赘述了。
Spark的开发是基于scala语言的,属于java和js的综合体,知晓java及js的同学应该都是很容易上手的。
开发一个spark的程序一般用专门的IDE,叫做Scala IDE for Eclipse,和开发java的界面差不多。
下面我们就用图文来说明,如何开发出第一个spark的程序。
一 切换到scala开发环境
(一)点击其中红色箭头所指的按钮,切换到scala开发环境
二 新建scala工程
(二) 新建一个Scala工程
三 新建一个scala object
(三)新建一个scala Object
四 写入打印代码
package first.helloworld object HelloWorld { |
五 导成jar包,提交到spark环境运行
spark-submit --class first.helloworld.HelloWorld --master spark://ha-test:7077 first.jar
六 查看运行结果
不出意外,大功告成,没错,就那么简单!比起网上动不动就上万的培训费,是不是感觉一万个草泥马在奔腾呢!