Java反序列化协议解析一

年前开始研究Java反序列化，一直没有研究Java反序列化文件的格式。最近闲来无事，研究一下java反序列化文件的格式。扯这么多的原因主要是要达成两个目标

尝试使用python读取java反序列化文件，并转换为Json格式以方便阅读（其实没多少用，还是一样难懂）。
json定义反序列化，随意编辑反序列化流，通过json生成序列化文件。缩小某些payload工具的大小，生成一个exp需要N多依赖的jar包，这不讲伍德

首先我们先大致讲解一下java序列化以及相关东西。

java序列化功能只传递对象的属性，不传递对象的方法，静态变量等等。你可以把java序列化功能类比Json传输。
java存在八种基本类型，分别是字节，整型数字，浮点数，布尔值。至于对象，其实是这八种基本类型的复杂组合。无论多么复杂的对象，其实都可以被解析为这八种基本类型。当然这八种基本类型在其他语言中也存在，为我们使用python解析反序列化文件提供了理论基础。

1 基础类型的读取

序列化中也有基础类型。我们需要定义几个函数用来读取基础类型。
例如

一个Byte一般作为指令，标记后面的数据流是什么
int为4个Byte，也就是32位byte
Short为2个Byte，是16位
以此类推，按照c语言的数据类型长度定义，千万别乱写
字符串类型，在这里我们只讨论ascii编码的情况，暂时不讨论Utf编码的情况。在序列化中，一个字符串类型，首先读取两个Byte，也就是short类型，作为字符串的长度。随后按照字符串的长度，读取Byte作为字符串。

2 序列化中控制指令

前面我们提到，读取一个Byte作为控制指令，控制指令的作用是标记后面的数据类型，序列化中控制指令如下

TC_NULL = b'\x70' 标记后面的数据为空，对应java就是Null
TC_REFERENCE = b'\x71 java序列化协议是一个格式十分紧凑的协议，是不会出现两个一摸一样的对象，类等。如果第二次出现，则会通过reference去指向之前的那个内容。你可以把这个类比为指针。
TC_CLASSDESC = b'\x72' 这个是处理并返回类描述符。。与下面的class的区别在于，这个返回的是描述类的一个对象，主要包括类的名称，suid等各种属性。
TC_CLASS = b'\x76'在java序列化中，类的传输通过名称，suid等属性，对端通过名称查找classpath中该类。而这个TC_CLASS将会根据上面的类描述符，通过Class.forName去查找这个类。
TC_OBJECT = b'\x73' 标记后面的数据为Object对象
TC_STRING = b'\x74'标记后面的数据字符串。与基本类型中字符串的区别在于，这里面读取的字符串将会被缓存，如果出现第二个一模一样的字符串，则通过reference的方式，直接读取缓存中的字符串
TC_ARRAY = b'\x75'标记后面的数据为数组类型
TC_BLOCKDATA = b'\x77' 在对象的WriteObject方法中，我们可以自定义的写入数据，除了非Object数据，其他所有数据将会被写在一起，也就是BlockData。当然，只有readObject方法中，合适的读取顺序才可以成功还原blockdata。
TC_ENDBLOCKDATA = b'\x78' 在readObject中，表明数据已经读取完毕
TC_EXCEPTION = b'\x7B' 表明后面需要读取一个exception类型的对象
TC_PROXYCLASSDESC = b'\x7D' 读取一个动态代理的对象

3 还原反序列化流

有了上面的知识作为基础，下面我们尝试还原反序列化流中的内容。当然我们并没有按照某些特定的顺序去讲解。

3.1 还原类的描述符（ClassDesc

类的描述符为序列化协议中的基石，它表明了后面的数据类型以及读取方法。类的描述符，一共有以下几个字段

name 字符串类型，类的名称
suid long类型，类的suid，为了防止兼容性而设置的一个值。同一类的不同版本可能suid不一直，这样防止不兼容的情况发生
flag 表明类是否为反序列化，是否存在writeObject方法，也就是额外写入数据等等
field 类中包含的数据类型列表，
父类，父类也是类的描述符
类的额外信息

field

这里只包含类的数据类型的名称与类型，不包括值。一定注意

读取父类

由于java不支持多继承，所以在这里只有两种情况，继承自一个父类和没有父类这两种情况。在这里我们只需要递归读取，直到控制指令为TC_NULL，即父类为空，作为结束递归的条件。

类的描述符，记得要缓存。计算handle的时候，后面的值可能会引用该类的描述符

下面用一图总结类的描述符的的协议结构

| utf 类名|4Byte suid|1Byte flags|2Byte 字段数量|字段详细内容|父类|类的额外数据|

3.2 还原数组（TC_ARRAY

我们知道，java的数组中的内容只能为同一类型。所以在处理数组信息的时候，首先读取类描述符，表明数组中的内容的数据类型。然后读取数组的长度。最后按照数组长度以及数组类型，去读取并还原数组中的数据。

|ClassDesc|Int length|数组数据|

数组也会被缓存，并被计算为handle

3.3 还原对象

还原对象的数据其实特别简单。首先读取类的描述符，然后紧接着按照类描述符的字段读取数据即可。所以在这里，一个byte出错，将会导致后面的数据全部读取错误。
在这里需要注意几点

首先读取父类中字段的值，然后再读子类的字段值，在这里我们使用栈数据结构去解决读取
如果父类包含额外信息（例如writeObject写入），则首先读取父类包含的额外信息，再去读取子类的额外信息
如果对象继承自EXTERNALIZABLE接口，则无法单纯通过流中数据还原对象中的值。因为java将不会负责字段值的读取写入，这一切都由开发人员决定哪些字段被保存以及保存的方法。这也就是weblogic中反序列化触发XXE的漏洞原理，出现问题的类基本都继承自EXTERNALIZABLE接口，且通过xml定义被保存的对象
如果对象继承自Serializable接口，且存在writeObject方法。当writeObject方法中没有通过ObjectOutputStream.defaultWriteObject将类的默认字段写入到序列化流中，也无法还原对象的值。原因在于，反序列化中读取类的值按照类的字段顺序去读取，如果没有调用defaultWriteObject写入，则相当于顺序不可知，也是无法单纯通过流中数据去还原对象

当然，对象中字段的值有可能还是对象，需要递归读取，直到读取所有的字段为基础数据类型。在这里建议设置递归的最大深度，防止出现爆栈的异常。