摘要: 1.union操作是产生宽依赖还是窄依赖? 产生窄依赖 2.窄依赖父RDD的partition和子RDD的parition是不是都是一对一的关系? 不一定,除了一对一的窄依赖,还包含一对固定个数的窄依赖(就是对父RDD的依赖的Partition的数量不会随着RDD数量规模的改变而改变),比如join 阅读全文
posted @ 2019-10-07 22:40 小码农成长记 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 主要围绕spark的底层核心抽象RDD和原理进行理解。主要包括以下几个方面 RDD弹性分布式数据集的依赖关系 RDD弹性分布式数据集的lineage血统机制 RDD弹性分布式数据集的缓存机制 spark任务的DAG有向无环图的构建 spark任务如何划分stage spark任务的提交和调度流程 1 阅读全文
posted @ 2019-10-07 22:37 小码农成长记 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 1.map和flatmap的区别 map:对RDD每个元素转换,文件中的每一行数据返回一个数组对象。 flatMap:对RDD每个元素转换,然后再扁平化。 将所有的对象合并为一个对象,文件中的所有行数据仅返回一个数组对象,会抛弃值为null的值。 2.RDD的弹性表现在哪几点? 1)自动的进行内存和 阅读全文
posted @ 2019-10-07 21:37 小码农成长记 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 主要围绕spark的底层核心抽象RDD进行理解。主要包括以下几个方面 RDD弹性分布式数据集的概念 RDD弹性分布式数据集的五大属性 RDD弹性分布式数据集的算子操作分类 RDD弹性分布式数据集的算子操作练习 1. RDD是什么 RDD(Resilient Distributed Dataset)叫 阅读全文
posted @ 2019-10-07 21:34 小码农成长记 阅读(369) 评论(0) 推荐(0) 编辑
摘要: 是由于微软的更新程序引起的问题,只要将最近的一次更新程序卸载然后重启即可。操作如图所示:找到控制面板->程序->程序与功能,然后点击卸载程序。找到最新的一次微软的更新,然后将这个更新卸载,重启即可使用。如图:将选中的卸载即可。 转载自:https://blog.csdn.net/qq_4060516 阅读全文
posted @ 2019-10-07 16:41 小码农成长记 阅读(820) 评论(0) 推荐(0) 编辑