摘要: 三大数据结构: RDD:弹性分布式数据集 累加器:分布式共享只写变量 广播变量:分布式共享只读变量 阅读全文
posted @ 2022-08-18 19:55 lambertlt 阅读(10) 评论(0) 推荐(0) 编辑
摘要: spark 应用程序提交到 yarn 环境中,一般有两种部署执行的方式:Client 和 Cluster 两种模式主要区别:Driver 程序的运行节点位置 任务之间的依赖不可形成闭环即任务RDD不可以有闭环 阅读全文
posted @ 2022-08-18 18:15 lambertlt 阅读(46) 评论(0) 推荐(0) 编辑
摘要: idea 下使用 Scalc 实现 wordCount idea -> 进入 plugins 安装 Scala 插件需重新启动 idea 进入 project structure -> 下载 Scala SDK (速度很慢很慢,耐心等待,下载不全会导致后面编译运行程序出bug)如下图点击加号下载即可 阅读全文
posted @ 2022-08-18 09:30 lambertlt 阅读(286) 评论(0) 推荐(0) 编辑