03 2022 档案

摘要:shuffle是spark中一个很重要的概念,它表示的是上游分区的数据打散到下游分区中。一般来说,shuffle类的算子比如reducebykey会发生shuffle,但是并不是一定会产生。 比如,前面已经经过groupbykey进行分组了,现在再次调用shuffle类算子比如groupbykey, 阅读全文
posted @ 2022-03-30 23:00 习惯了蓝 阅读(834) 评论(0) 推荐(0) 编辑
摘要:在spark中,使用类实例,一般分为四种情况 Driver初始化一个object,这个单例对象要伴随着Task发送到Executor,但是一个Executor中只有一份,必须实现序列化接口, 使用共享成员变量有可能会出现线程安全问题 Driver实例化一个类的实例(new一个实例),在函数内容引用了 阅读全文
posted @ 2022-03-30 16:57 习惯了蓝 阅读(84) 评论(0) 推荐(0) 编辑
摘要:sample采样算子 https://www.cnblogs.com/students/p/13432692.html sortby算子为什么会触发action操作。 https://waltyou.github.io/Special-SortBy-In-RDD/ 阅读全文
posted @ 2022-03-29 23:51 习惯了蓝 阅读(20) 评论(0) 推荐(0) 编辑
摘要:广播变量 广播变量将小样本的规则数据汇总到driver端并不是只能由workrer读取hdfs分区上数据在进行汇总的,可以直接由driver去读,也driver端去mysql读等等多种方式在driver端拿到广播数据。 driver端广播到对应application的executor上不是把整份数据 阅读全文
posted @ 2022-03-29 20:40 习惯了蓝 阅读(53) 评论(0) 推荐(0) 编辑
摘要:checkpoint,用来保存中间计算的结果,一般把结果保存到hdfs上。而且checkpoint一般和cache或者persist连用, 想要中间计算的结果,会先去cache的内存里面找,或者persist保存的本地磁盘,如果没有再去招checkpoint的, 要注意,cache的丢失了,顶多是往 阅读全文
posted @ 2022-03-29 19:36 习惯了蓝 阅读(473) 评论(0) 推荐(0) 编辑
摘要:将数据缓存到内存,第一次触发 Action,才会将数据放入内存,以后在触发 Action,可以复用前面内存中缓存的数据,可以提升技术效率cache 和 persist 的使用场景:一个 application 多次触发 Action,为了复用前面 RDD 的数据,避免反复读取 HDFS(数据源)中的 阅读全文
posted @ 2022-03-28 21:02 习惯了蓝 阅读(179) 评论(0) 推荐(0) 编辑
摘要:repartiton算子,重分区算子,比如上游的分区数太多,下游想要减少就可以使用,是一种物理改变分区的算子,涉及到shuffle操作。它底层调用的coalesce算子,repartiton在这里传进去了shuffle是true coalesce算子可以指定是否shuffle,coalesce函数总 阅读全文
posted @ 2022-03-27 17:43 习惯了蓝 阅读(92) 评论(0) 推荐(0) 编辑
摘要:join类型算子,是依赖于K,V类型的算子,是俩个RDD的交集操作,底层是cogroup算子+flatmapvalues算子操作。 leftouterjoin类型算子,是依赖于K,V类型的算子,是俩个RDD的交集操作,底层是cogroup算子+flatmapvalues算子操作。类似于mysql的左 阅读全文
posted @ 2022-03-26 15:49 习惯了蓝 阅读(52) 评论(0) 推荐(0) 编辑
摘要:cogroup算子是协分组算子,它的作用是合并多个RDD内容,这也是一个k,v类型的算子。 把合并起来的多个RDD中,共同的key算作key,value为一个元组,元组内容是compactbuffer,里面内容是之前RDD的value值。cogroup几个RDD就有几个RDD 具体可以看下面俩副图。 阅读全文
posted @ 2022-03-25 23:31 习惯了蓝 阅读(203) 评论(0) 推荐(0) 编辑
摘要:在Spark中,当进行程序编写的时候,都是调用一个个算子,在外部看上去似乎都是在调用RDD算子,似乎这些算子都是存在在RDD这个文件中,但是RDD中直接存在的只有map,filter这些基本算子,其他都是通过伴生类中的隐式转换调用其他文件下的算子的。这图就是源码包下的一段说明,这里主要记录一下Pai 阅读全文
posted @ 2022-03-25 21:36 习惯了蓝 阅读(519) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示