spark windows环境下spark安装和运行(1)
本文主要记录windows系统上安装spark,scala,和intelj IDEA,并实现本地spark运行。同时介绍了利用maven构建工具对spark工程构建的方法。本地运行需要本地安装scala,spark,hadoop。而如果利用maven构建工具则只需要再maven的pom.xml配置好需要的scala,spark,hadoop版本信息,构建时自动导入相应依赖,常用于企业级的项目开发中。
一,安装篇
这部分介绍常规spark本地运行的必要软件安装。而如果你使用的是Maven构建工具,那么下面的步骤3,4,5都可以略过(由maven根据配置文件自动构建),我们只用安装最基本的1,2以及6环境变量中与JAVA相关的部分。maven安装见本节7。
本地安装部分更详细的可以参考:https://blog.csdn.net/u011513853/article/details/52865076
1,安装jdk,需要是jdk8(也被称为jdk1.8)
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
环境变量:
创建JAVA_HOME:C:\Program Files\Java\jdk1.8.0_181
创建CLASSPATH:.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar(前面有个点号)
Path添加:%JAVA_HOME%\bin;
测试是否安装成功:打开cmd命令行,输入java -version
2,安装intelj IDEA并配置scala插件
https://www.jetbrains.com/idea/
IDEA安装完成后,安装scala插件:启动intelj -> 点击启动页configuration -> Plugins,或者file->setting->Plugins,搜索scala并安装插件。如果搜不到,可能是需要代理:Install JetBrains plugin... -> HTTP Proxy Settings设置代理。
安装完成后要重启IDEA。
3,安装spark
下载后解压到指定目录即可,这里我们选择2.4.5 版本
http://spark.apache.org/downloads.html
环境变量:
创建SPARK_HOME:D:\spark-2.4.5-bin-hadoop2.7
Path添加:%SPARK_HOME%\bin
测试是否安装成功:打开cmd命令行,输入spark-shell
spark-shell时报错:error not found:value sqlContext。参考:https://www.liyang.site/2017/04/19/20170419-spark-error-01/
4,安装Hadoop
说明:如果你只是玩Spark On Standalone的话,就不需要安装hadoop,如果你想玩Spark On Yarn或者是需要去hdfs取数据的话,就应该先装hadoop。关于spark和hadoop的关系,强烈推荐这篇博客:Spark是否会替代Hadoop?
安装上面spark对应版本的hadoop 2.7:http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz
解压到指定目录即可。
环境变量:
创建HADOOP_HOME:D:\hadoop-2.7.7
Path添加:%HADOOP_HOME%\bin
测试是否安装成功:打开cmd命令行,输入hadoop
hadoop测试时报错:Error: JAVA_HOME is incorrectly set。参考:https://blog.csdn.net/qq_24125575/article/details/76186309
打开E:\hadoop-2.7.3\etc\hadoop\hadoop-env.cmd(你的文件在哪就去哪找)
原来是配置文件的问题,我的JAVA_HOME目录是C:\Program Files\Java\jdk1.8.0_121,因为Program Files中存在空格,所以出现错误,只需要用
PROGRA~1代替Program Files即可,即改为C:\PROGRA~1\Java\jdk1.8.0_121,当然,你也可以讲jdk装到根目录或者不存在空格等目录下。
5,安装scala SDK
其版本应与上面spark/jars/中scala版本一致,2.2.0版本spark对应的scala版本位2.11.8,https://www.scala-lang.org/download/2.11.8.html
上面链接中提到了多种scala的安装方式,比较省事的是通过已经安装好scala插件的intelj IDEA安装scala SDK(注意区分插件和SDK):File => New => Project,选择scala,输入工程名,如果是第一次新建scala工程,会有一个scala SDK的Create按钮,然后选择需要的版本安装。
而我使用的是安装包安装方式:
环境变量:
创建SCALA_HOME: C:\Program Files (x86)\scala
Path添加:;%SCALA_HOME%\bin; %JAVA_HOME%\bin;;%HADOOP_HOME%\bin
测试是否安装成功:打开cmd命令行,输入scala
7,maven构建工具安装(如果不用maven构建工具,不用装)
http://maven.apache.org/download.cgi
也是下载后解压即可。
环境变量:
MAVEN_HOME = D:\apache-maven-3.5.4
MAVEN_OPTS = -Xms128m -Xmx512m
path添加:%MAVEN_HOME%\bin
测试是否安装成功:打开cmd,输入mvn help:system
8. 问题解决:
spark-shell命令报错:
关于 winutils.exe 文件:下载路径:https://github.com/cdarlint/winutils 码云: https://gitee.com/leolzi/winutils
下载下来后找到对应的bin 下的文件拷贝进去
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)