03 2021 档案
摘要:一、RDD概述 1.1 RDD叫做弹性分布式数据集,是spark中最基本的抽象数据。它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 1)弹性: 存储的弹性:内存与磁盘的自动切换 容错的弹性:数据丢失可以自动恢复 计算的弹性:计算出容错机制 分片的弹性:可根据需要重新分片 2)分布式
阅读全文
摘要:1.默认分区 setMaster("local"):采用的是默认值,核数1 setMaster("local[*]"):最大分区数与物理机cpu核数相同,最小值为2,具体分区数量需要计算 2.从不同位置创建rdd,分区数量 -从集合中创建rdd 取决于分配给应用的cpu核数 -从外部文件中创建rdd
阅读全文
摘要:一、未使用git add缓存代码时: // 放弃单个文件修改,注意不要忘记中间的"--",不写就成了检出分支了! git checkout -- filepathname // 放弃所有的文件修改 git checkout . 二、已经使用的git add缓存了代码: git reset HEAD
阅读全文
摘要:一、Local模式:在本地部署单个Spark服务 Local模式就是运行在一台计算机上的模式,通常就是用于在本机上练手和测试。 二、Standalone模式:Spark自带的任务调度模式。(国内常用) Standalone模式是Spark自带的资源调动引擎,构建一个由Master + Slave构成
阅读全文