Spark的序列化

在Spark的优化中，提到他使用了java的序列化方案。但是在代码中我们会看到它定制了自己的序列化，java的序列化有默认实现，也可以定制

@DeveloperApi
class SerializableWritable[T <: Writable](@transient var t: T) extends Serializable {

  def value: T = t

  override def toString: String = t.toString

  private def writeObject(out: ObjectOutputStream): Unit = Utils.tryOrIOException {
    out.defaultWriteObject()
    new ObjectWritable(t).write(out)
  }

  private def readObject(in: ObjectInputStream): Unit = Utils.tryOrIOException {
    in.defaultReadObject()
    val ow = new ObjectWritable()
    ow.setConf(new Configuration())
    ow.readFields(in)
    t = ow.get().asInstanceOf[T]
  }
}

developerApi表示这是新特性，还是不给外部调用的。

该类使用hadoop的序列化来定制的。我做了测试大大降低了数据量，一个是175字节，一个是２kb.

@transient在这里的意思就是不序列化。ＪＡＶＡ默认的序列化不用序列化这个成员字段，自己定义的writeObject会序列化该字段。
为什么呢？应该t没有实现Serializable。序列化是有问题的。同事强制使用hadoop的序列化方案。

posted @ 2015-07-01 17:44 高兴的博客阅读(332) 评论(0) 编辑收藏举报

刷新页面返回顶部

高兴

谨言慎行,格物致知

Spark的序列化

公告