随笔档案「2021年3月」 - 酷酷的狐狸

spark算子

摘要：一、RDD概述 1.1 RDD叫做弹性分布式数据集，是spark中最基本的抽象数据。它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 1）弹性：存储的弹性：内存与磁盘的自动切换容错的弹性：数据丢失可以自动恢复计算的弹性：计算出容错机制分片的弹性：可根据需要重新分片 2）分布式阅读全文

posted @ 2021-03-31 10:54 酷酷的狐狸阅读(202) 评论(0) 推荐(0)

spark分区计算方式

摘要：1.默认分区 setMaster("local")：采用的是默认值，核数1 setMaster("local[*]")：最大分区数与物理机cpu核数相同，最小值为2，具体分区数量需要计算 2.从不同位置创建rdd，分区数量 -从集合中创建rdd 取决于分配给应用的cpu核数 -从外部文件中创建rdd 阅读全文

posted @ 2021-03-29 19:29 酷酷的狐狸阅读(658) 评论(0) 推荐(0)

git操作

摘要：一、未使用git add缓存代码时： // 放弃单个文件修改,注意不要忘记中间的"--",不写就成了检出分支了! git checkout -- filepathname // 放弃所有的文件修改 git checkout . 二、已经使用的git add缓存了代码： git reset HEAD 阅读全文

posted @ 2021-03-26 13:21 酷酷的狐狸阅读(61) 评论(0) 推荐(0)

spark运行模式

摘要：一、Local模式：在本地部署单个Spark服务 Local模式就是运行在一台计算机上的模式，通常就是用于在本机上练手和测试。二、Standalone模式：Spark自带的任务调度模式。（国内常用） Standalone模式是Spark自带的资源调动引擎，构建一个由Master + Slave构成阅读全文

posted @ 2021-03-17 20:08 酷酷的狐狸阅读(300) 评论(0) 推荐(0)

酷酷的狐狸

走思狗的日子

03 2021 档案

公告