大数据分析———（2）准备工作

本次项目使用Spark进行数据清洗，首先需要安装Scala环境。下载解压后，修改 ~/.bashrc文件，把Scala添加到系统环境变量中。

在启动Spark之前，首先要启动Hadoop。进入Hadoop目录后，在sbin下运行./~bashrc启动

然后启动Spark，进入Spark目录，在sbin下运行./~bashrc启动

再进入Spark的bin目录，运行 ./spark-shell ，进入Spark的shell模式。至此，spark已正常启动.

在shell界面虽然也可完成数据清洗，但代码的修改和排错较为麻烦。所以把Spark环境添加到Eclipse上，可较为方便的实现代码的修改、排错与重现。

第一步，打开Eclipse界面后，点击左上角的File==>New==>Scala Project，新建Scala项目

第二步，为项目添加构建路径，在项目名上右键==>Build Path==>Configure Build Path…

点击进入构建路径设置界面后，点击Libraries==>Add Extemal JARs…，找到spark目录下的jars目录，全选目录下的jar包，点击确定后完成设置。

posted @ 2023-02-18 21:59 来杯明前奶绿阅读(13) 评论(0) 编辑收藏举报

刷新页面返回顶部

来杯明前奶绿的个人博客