04 2022 档案

摘要:https://blog.csdn.net/weixin_45369440/article/details/116952285 阅读全文
posted @ 2022-04-30 06:55 学而不思则罔! 阅读(453) 评论(0) 推荐(0) 编辑
摘要:find 目录 -name '*.txt' -type f -print -exec rm -rf {} \; 示例 find /home/tech/data_log -name '*.txt' -type f -print -exec rm -rf {} \; 阅读全文
posted @ 2022-04-28 20:55 学而不思则罔! 阅读(484) 评论(0) 推荐(1) 编辑
摘要:spark学习5:spark-shell https://blog.csdn.net/hzp666/article/details/117017829 阅读全文
posted @ 2022-04-28 07:25 学而不思则罔! 阅读(107) 评论(0) 推荐(0) 编辑
摘要:1. 研究内容说明 1.本篇主要研究 Spark怎样将一个Application提交到Yarn集群中 这个过程中个节点会发生那些变化 阅读全文
posted @ 2022-04-25 23:22 学而不思则罔! 阅读(27) 评论(0) 推荐(0) 编辑
摘要:宝哥大数据 https://chbxw.blog.csdn.net/category_6805627_2.html 阅读全文
posted @ 2022-04-25 19:51 学而不思则罔! 阅读(13) 评论(0) 推荐(0) 编辑
摘要:https://mp.weixin.qq.com/s/lNE14-u2Gw2JoZybC1dhSw 阅读全文
posted @ 2022-04-14 20:08 学而不思则罔! 阅读(53) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/m0_57498038/article/details/116034873 阅读全文
posted @ 2022-04-13 16:48 学而不思则罔! 阅读(17) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/OWBY_Phantomhive/article/details/123086181 note : 阅读全文
posted @ 2022-04-10 16:52 学而不思则罔! 阅读(32) 评论(0) 推荐(0) 编辑
摘要:https://zhuanlan.zhihu.com/p/115341596 https://baijiahao.baidu.com/s?id=1724256379878166241&wfr=spider&for=pc 阅读全文
posted @ 2022-04-09 18:22 学而不思则罔! 阅读(30) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/u010452388/article/details/98234147 阅读全文
posted @ 2022-04-08 17:49 学而不思则罔! 阅读(23) 评论(0) 推荐(0) 编辑
摘要:https://www.iteye.com/blog/langyu-992916 https://www.cnblogs.com/felixzh/p/4680808.html 阅读全文
posted @ 2022-04-07 20:56 学而不思则罔! 阅读(18) 评论(0) 推荐(0) 编辑
摘要:1. 什么是累加器 累加器是用来把Executor端的变量信息聚合到Driver端 2. 累加器实现原理 * 在Driver程序中定义的变量,在Executor端的每个Task节点上都会复制这个变量的副本 * ,每个Task节点更新这些副本的值后,再传回Driver端进行merge 3. 怎样获取累 阅读全文
posted @ 2022-04-05 16:14 学而不思则罔! 阅读(147) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/qidasheng2012/article/details/105771052 https://developer.aliyun.com/article/696266 阅读全文
posted @ 2022-04-05 08:22 学而不思则罔! 阅读(18) 评论(0) 推荐(0) 编辑
摘要:1.说明 * 1.Rdd文件读取和保存 可以从两个角度来区分 * 文件格式 : text、json、csv、sequence文件、Object序列化文件 * 文件系统 : 本地文件系统、hdfs、hbase、各类型数据库 2.Spark中怎样读取&保存text文件? 1.读取 * 1.SparkCo 阅读全文
posted @ 2022-04-03 08:10 学而不思则罔! 阅读(307) 评论(0) 推荐(0) 编辑
摘要:1. 什么是Rdd的分区器? * key-value类型的Rdd在Shuffle时,会根据key的特质进行分区 * 分区器就是 Partitioner的一个实现类 * 通过指定 numPartitions 确定分区个数 * getPartition(key: Any) 确定分区规则 2. Spark 阅读全文
posted @ 2022-04-02 18:07 学而不思则罔! 阅读(63) 评论(0) 推荐(0) 编辑
摘要:1.什么是Rdd持久化? Rdd只会存储的元数据信息(切片的位置信息、Rdd的依赖关系、计算逻辑等),不会存储计算数据 Rdd可以通过Cache或者Persis或者CheckPoint方法,将前面Rdd的计算的结果缓存,默认会将数据存储到JVM的堆内存中 2.怎样将Rdd的计算结果持久化? 1.Ca 阅读全文
posted @ 2022-04-02 16:47 学而不思则罔! 阅读(106) 评论(0) 推荐(0) 编辑
摘要:1.说明 /* * RDD 任务切分中间分为:Application、Job、Stage 和 Task Application:初始化一个SparkContext即生成一个Application; new SparkConf().setMaster("local").setAppName("dist 阅读全文
posted @ 2022-04-02 07:12 学而不思则罔! 阅读(120) 评论(0) 推荐(0) 编辑
摘要:1. RDD 血缘关系 /*RDD 血缘关系*/ /* * 1. 什么是Rdd的血缘关系? * 1.RDD 只支持粗粒度转换,即在大量记录上执行的单个操作。 * 2.将创建 RDD 的一系列 Lineage (血统)记录下来,以便恢复丢失的分区。 * 3.RDD的 Lineage 会记录RDD的 元 阅读全文
posted @ 2022-04-01 12:22 学而不思则罔! 阅读(206) 评论(0) 推荐(0) 编辑
摘要:1. 说明 /*闭包检查*/ /* * 1. Scala的闭包 * 如果一个函数,访问了它外部的(局部)变量的值,那么这个函数和所处的环境,称之为闭包 * 使用场景 : * 在嵌套函数中,内层函数可以 只用外层函数的任意变量 * * 2. Spark的闭包 * 1. 算子之外的代码都是在Driver 阅读全文
posted @ 2022-04-01 07:38 学而不思则罔! 阅读(105) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示