RDD 序列化

问题引入

想看一个需求:定义一个 用户类,有一个name 属性和toSting方法:

1
2
3
4
class User {
  var name: String = _
  override def toString: String = s"User{$name}"
}

现在要声明两个对象并给name 属性赋值,然后将两个实例放在一个rdd里,进行采集打印:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
def main(args: Array[String]): Unit = {
   //获取 SparkConf 并设置应用名称*本地模式
   val conf: SparkConf = new SparkConf().setAppName("Spark").setMaster("local[*]")
   //获取 Spark 上下文对象
   val sc: SparkContext = new SparkContext(conf)
   var lhc: User = new User
   var yilin: User = new User
   lhc.name = "令狐冲"
   yilin.name = "依琳"
   val userRDD: RDD[User] = sc.makeRDD(List(lhc, yilin))
   userRDD.foreach(println)
   //释放 Spark 上下文对象
   sc.stop
 }

看逻辑没什么问题:但是在运行的时候报错了

复制代码
2022-05-26 20:35:25      ERROR (org.apache.spark.util.Utils:logError) - Exception encountered
java.io.NotSerializableException: org.wdh01.spark04.User
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1184)
    at java.io.ObjectOutputStream.writeArray(ObjectOutputStream.java:1378)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1174)
    at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
    at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509)
    at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
    at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
    at java.io.ObjectOutputStream.defaultWriteObject(ObjectOutputStream.java:441)
    at org.apache.spark.rdd.ParallelCollectionPartition.$anonfun$writeObject$1(ParallelCollectionRDD.scala:59)
复制代码

说是没有进行序列化

问题出在哪里呢?在 spark 程序初始化操作发生在Driver端,具体算子执行在Executor端执行,如果在Executor执行的时候,要访问Driver端初始化的数据,那么就涉及跨进程跨节点通信 所以要求传递的数据必须是可序列化的

如何进行序列化

方案1、混入 Serializable

1
2
3
4
class User extends Serializable {
  var name: String = _
  override def toString: String = s"User{$name}"
}

这样就可以解决了,但是需要注意,这里的 Serializable 其实是继承了java 的 Serializable

1
2
3
4
5
6
package scala
 
/**
 * Classes extending this trait are serializable across platforms (Java, .NET).
 */
trait Serializable extends Any with java.io.Serializable

java 的序列化其实还是比较重量级的,这一点需要注意

方案2、将类声明为样例类

但是并非所有类都适用这种场景,

方案3、使构造参数对序列化的数据进行赋值

 

posted @   晓枫的春天  阅读(47)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· 一文读懂知识蒸馏
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
点击右上角即可分享
微信分享提示