Ubuntu-Java-Scala-Spark-IEDA-configure

最近要接触数据分析，需要快速入门，就想在Ubuntu下配置IDEA和Spark编程环境。

1.下载jdk

#java /etc/profile .zshrc, 或者直接在终端输入
export JAVA_HOME=/usr/lib/jdk
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

2.下载scala并且拷贝到/usr/local/scala

开始配置在/etc/profile中输入下面的内容

vim /etc/profile

#scala
export SCALA_HOME=/usr/local/scala
export PATH=$SCALA_HOME/bin:$PATH

#scala compile
alias sa='scala'

$source /etc/proflle使file生效。

$scala -version来查看版本

3.idea 安装scala插件

下载对于版本的scala插件，首先到idea中去搜索对于的版本，然后对于下载。

下载好之后，直接解压放到idea中plugins目录下。

4.spark 使用

下载完之后，解压出来，直接使用。（./spark-shell ./pyspark）

5.IEDA安装

选择社区版，下载完之后，解压出来。进入bin目录，运行idea.sh脚步来启动IDEA.

６.插件安装(vim+scala+sbt)

在file->Settins->Plugins,搜索scala插件进行安装，完成之后，就会用scala类型的项目了。一定要把自己的网速搞上去。

７.在IEDA中配置jdk,scala,spark依赖

８.编写demo程序---scala---Spark

　　1)scala项目

　　2)Spark项目

6、打包导出到集群运行。

6.1 如果pom.xml文件中存在hadoop或者spark的依赖，请在打包之前注释掉。因为集群已经有包了，注释掉既能减少包的大小，又能避免某些jar版本冲突。

6.2 Intellij中点击“File - Project Struction - Artifacts - + - Jar - From modules with dependencies…”，填写modules、Main Class以及路径等，点击OK生成jar包。

File->Project Structure->在右侧选择Artifacts->JAR->From modules with dependencies

填写该JAR包名称和调整输出内容

【注意】的是默认情况下"Output Layout"会附带Scala相关的类包，由于运行环境已经有Scala相关类包，所以在这里去除这些包只保留项目的输出内容

6.3 Intellij中点击“Build- Build artifacts… ”，选择刚生成的jar包进行build。

6.4 将打包好的jar包上传到服务器某路径下。

6.5 执行提交命令：

spark-submit WhereIsYourJar 其他参数

bin/spark-submit --master spark://hadoop1:7077 --class class3.Join --executor-memory 1g LearnSpark.jar hdfs://hadoop1:9000/class3/join/reg.tsv hdfs://hadoop1:9000/class3/join/clk.tsv

９debug

编程的时候，避免不了的就是调试IEDA　debug.

10.Spark源码阅读环境

posted @ 2016-10-03 15:57 encourage 阅读(263) 评论(0) 编辑收藏举报

刷新页面返回顶部

encourage

Por una Cabeza

Ubuntu-Java-Scala-Spark-IEDA-configure

公告