2019 年 10月 17 日随笔档案 - 我是属车的

2019年10月17日

摘要： 1、spark在yarn模式下提交作业需要启动hdfs集群和yarn，具体操作参照：hadoop 完全分布式集群搭建 2、spark需要配置yarn和hadoop的参数目录 3、将spark整个目录分发到hdfs集群中每台机器上，分发命令可以参考：linux rsync 如果不想用rsync也可以直阅读全文

posted @ 2019-10-17 14:07 我是属车的阅读(771) 评论(0) 推荐(0) 编辑

spark的wordcount

摘要：在开发环境下实现第一个程序wordcount 1、下载和配置scala，注意不要下载2.13，在spark-core明确支持scala2.13前，使用2.12或者2.11比较好。 2、windows环境下的scala配置，可选 3、开发工具IDEA环境设置，全局环境添加scala的sdk，注意sca 阅读全文

posted @ 2019-10-17 10:28 我是属车的阅读(1197) 评论(0) 推荐(0) 编辑

我是属车的

公告