RDD 序列化
问题引入
想看一个需求:定义一个 用户类,有一个name 属性和toSting方法:
1 2 3 4 | class User { var name : String = _ override def toString : String = s "User{$name}" } |
现在要声明两个对象并给name 属性赋值,然后将两个实例放在一个rdd里,进行采集打印:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 | def main(args : Array[String]) : Unit = { //获取 SparkConf 并设置应用名称*本地模式 val conf : SparkConf = new SparkConf().setAppName( "Spark" ).setMaster( "local[*]" ) //获取 Spark 上下文对象 val sc : SparkContext = new SparkContext(conf) var lhc : User = new User var yilin : User = new User lhc.name = "令狐冲" yilin.name = "依琳" val userRDD : RDD[User] = sc.makeRDD(List(lhc, yilin)) userRDD.foreach(println) //释放 Spark 上下文对象 sc.stop } |
看逻辑没什么问题:但是在运行的时候报错了
2022-05-26 20:35:25 ERROR (org.apache.spark.util.Utils:logError) - Exception encountered java.io.NotSerializableException: org.wdh01.spark04.User at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1184) at java.io.ObjectOutputStream.writeArray(ObjectOutputStream.java:1378) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1174) at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548) at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509) at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178) at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548) at java.io.ObjectOutputStream.defaultWriteObject(ObjectOutputStream.java:441) at org.apache.spark.rdd.ParallelCollectionPartition.$anonfun$writeObject$1(ParallelCollectionRDD.scala:59)
说是没有进行序列化
问题出在哪里呢?在 spark 程序初始化操作发生在Driver端,具体算子执行在Executor端执行,如果在Executor执行的时候,要访问Driver端初始化的数据,那么就涉及跨进程跨节点通信 所以要求传递的数据必须是可序列化的
如何进行序列化
方案1、混入 Serializable
1 2 3 4 | class User extends Serializable { var name : String = _ override def toString : String = s "User{$name}" } |
这样就可以解决了,但是需要注意,这里的 Serializable 其实是继承了java 的 Serializable
1 2 3 4 5 6 | package scala /** * Classes extending this trait are serializable across platforms (Java, .NET). */ trait Serializable extends Any with java.io.Serializable |
java 的序列化其实还是比较重量级的,这一点需要注意
方案2、将类声明为样例类
但是并非所有类都适用这种场景,
方案3、使构造参数对序列化的数据进行赋值
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· 一文读懂知识蒸馏
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下