摘要:
1、spark在yarn模式下提交作业需要启动hdfs集群和yarn,具体操作参照:hadoop 完全分布式集群搭建 2、spark需要配置yarn和hadoop的参数目录 3、将spark整个目录分发到hdfs集群中每台机器上,分发命令可以参考:linux rsync 如果不想用rsync也可以直 阅读全文
摘要:
在开发环境下实现第一个程序wordcount 1、下载和配置scala,注意不要下载2.13,在spark-core明确支持scala2.13前,使用2.12或者2.11比较好。 2、windows环境下的scala配置,可选 3、开发工具IDEA环境设置,全局环境添加scala的sdk,注意sca 阅读全文