03 2021 档案

摘要:一、RDD概述 1.1 RDD叫做弹性分布式数据集,是spark中最基本的抽象数据。它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 1)弹性: 存储的弹性:内存与磁盘的自动切换 容错的弹性:数据丢失可以自动恢复 计算的弹性:计算出容错机制 分片的弹性:可根据需要重新分片 2)分布式 阅读全文
posted @ 2021-03-31 10:54 酷酷的狐狸 阅读(169) 评论(0) 推荐(0) 编辑
摘要:1.默认分区 setMaster("local"):采用的是默认值,核数1 setMaster("local[*]"):最大分区数与物理机cpu核数相同,最小值为2,具体分区数量需要计算 2.从不同位置创建rdd,分区数量 -从集合中创建rdd 取决于分配给应用的cpu核数 -从外部文件中创建rdd 阅读全文
posted @ 2021-03-29 19:29 酷酷的狐狸 阅读(605) 评论(0) 推荐(0) 编辑
摘要:一、未使用git add缓存代码时: // 放弃单个文件修改,注意不要忘记中间的"--",不写就成了检出分支了! git checkout -- filepathname // 放弃所有的文件修改 git checkout . 二、已经使用的git add缓存了代码: git reset HEAD 阅读全文
posted @ 2021-03-26 13:21 酷酷的狐狸 阅读(46) 评论(0) 推荐(0) 编辑
摘要:一、Local模式:在本地部署单个Spark服务 Local模式就是运行在一台计算机上的模式,通常就是用于在本机上练手和测试。 二、Standalone模式:Spark自带的任务调度模式。(国内常用) Standalone模式是Spark自带的资源调动引擎,构建一个由Master + Slave构成 阅读全文
posted @ 2021-03-17 20:08 酷酷的狐狸 阅读(254) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示