深入浅出 RPC - 深入篇

本文来自本人独立博客,为获得更佳阅读体验,请点击 这里

----------------------------------------------------------------------------------------------------


《深入篇》我们主要环绕 RPC 的功能目标和实现考量去展开,一个主要的 RPC 框架应该提供什么功能,满足什么要求以及怎样去实现它?

RPC 功能目标

RPC 的主要功能目标是让构建分布式计算(应用)更easy,在提供强大的远程调用能力时不损失本地调用的语义简洁性。为实现该目标,RPC 框架需提供一种透明调用机制让使用者不必显式的区分本地调用和远程调用,在前文《浅出篇》中给出了一种实现结构,基于 stub 的结构来实现。以下我们将详细细化 stub 结构的实现。

RPC 调用分类

RPC 调用分下面两种:

1. 同步调用
   客户方等待调用运行完毕并返回结果。
2. 异步调用
   客户方调用后不用等待运行结果返回,但依旧能够通过回调通知等方式获取返回结果。
   若客户方不关心调用返回结果,则变成单向异步调用,单向调用不用返回结果。

异步和同步的区分在于是否等待服务端运行完毕并返回结果。

RPC 结构拆解

《浅出篇》给出了一个比較粗粒度的 RPC 实现概念结构,这里我们进一步细化它应该由哪些组件构成,例如以下图所看到的。


RPC 服务方通过 RpcServer 去导出(export)远程接口方法,而客户方通过 RpcClient 去引入(import)远程接口方法。客户方像调用本地方法一样去调用远程接口方法,RPC 框架提供接口的代理实现,实际的调用将托付给代理RpcProxy 。代理封装调用信息并将调用转交给RpcInvoker 去实际运行。在client的RpcInvoker 通过连接器RpcConnector 去维持与服务端的通道RpcChannel,并使用RpcProtocol 运行协议编码(encode)并将编码后的请求消息通过通道发送给服务方。

RPC 服务端接收器 RpcAcceptor 接收client的调用请求,相同使用RpcProtocol 运行协议解码(decode)。解码后的调用信息传递给RpcProcessor 去控制处理调用过程,最后再托付调用给RpcInvoker 去实际运行并返回调用结果。

RPC 组件职责

上面我们进一步拆解了 RPC 实现结构的各个组件组成部分,以下我们具体说明下每一个组件的职责划分。

1. RpcServer
   负责导出(export)远程接口
2. RpcClient
   负责导入(import)远程接口的代理实现
3. RpcProxy
   远程接口的代理实现
4. RpcInvoker
   客户方实现:负责编码调用信息和发送调用请求到服务方并等待调用结果返回
   服务方实现:负责调用服务端接口的详细实现并返回调用结果
5. RpcProtocol
   负责协议编/解码
6. RpcConnector
   负责维持客户方和服务方的连接通道和发送数据到服务方
7. RpcAcceptor
   负责接收客户方请求并返回请求结果
8. RpcProcessor
   负责在服务方控制调用过程,包含管理调用线程池、超时时间等
9. RpcChannel
   传输数据通道

RPC 实现分析

在进一步拆解了组件并划分了职责之后,这里以在 java 平台实现该 RPC 框架概念模型为例,具体分析下实现中须要考虑的因素。

导出远程接口

导出远程接口的意思是指仅仅有导出的接口能够供远程调用,而未导出的接口则不能。在 java 中导出接口的代码片段可能例如以下:

DemoService demo   = new ...;
RpcServer   server = new ...;
server.export(DemoService.class, demo, options);

我们能够导出整个接口,也能够更细粒度一点仅仅导出接口中的某些方法,如:

// 仅仅导出 DemoService 中签名为 hi(String s) 的方法
server.export(DemoService.class, demo, "hi", new Class<?>[] { String.class }, options);

java 中另一种比較特殊的调用就是多态,也就是一个接口可能有多个实现,那么远程调用时究竟调用哪个?这个本地调用的语义是通过 jvm 提供的引用多态性隐式实现的,那么对于 RPC 来说跨进程的调用就没法隐式实现了。假设前面DemoService 接口有 2 个实现,那么在导出接口时就须要特殊标记不同的实现,如:

DemoService demo   = new ...;
DemoService demo2  = new ...;
RpcServer   server = new ...;
server.export(DemoService.class, demo, options);
server.export("demo2", DemoService.class, demo2, options);

上面 demo2 是还有一个实现,我们标记为 "demo2" 来导出,那么远程调用时也须要传递该标记才干调用到正确的实现类,这样就攻克了多态调用的语义。

导入远程接口与client代理

导入相对于导出远程接口,client代码为了可以发起调用必需要获得远程接口的方法或过程定义。眼下,大部分跨语言平台 RPC 框架採用依据 IDL 定义通过 code generator 去生成 stub 代码,这样的方式下实际导入的过程就是通过代码生成器在编译期完毕的。我所使用过的一些跨语言平台 RPC 框架如 CORBAR、WebService、ICE、Thrift 均是此类方式。

代码生成的方式对跨语言平台 RPC 框架而言是必定的选择,而对于同一语言平台的 RPC 则能够通过共享接口定义来实现。在 java 中导入接口的代码片段可能例如以下:

RpcClient client = new ...;
DemoService demo = client.refer(DemoService.class);
demo.hi("how are you?");

在 java 中 'import' 是keyword,所以代码片段中我们用 refer 来表达导入接口的意思。这里的导入方式本质也是一种代码生成技术,仅仅只是是在执行时生成,比静态编译期的代码生成看起来更简洁些。java 里至少提供了两种技术来提供动态代码生成,一种是 jdk 动态代理,第二种是字节码生成。动态代理相比字节码生成使用起来更方便,但动态代理方式在性能上是要逊色于直接的字节码生成的,而字节码生成在代码可读性上要差非常多。两者权衡起来,个人觉得牺牲一些性能来获得代码可读性和可维护性显得更重要。

协议编解码

client代理在发起调用前须要对调用信息进行编码,这就要考虑须要编码些什么信息并以什么格式传输到服务端才干让服务端完毕调用。出于效率考虑,编码的信息越少越好(数据传输少),编码的规则越简单越好(运行效率高)。我们先看下须要编码些什么信息:

-- 调用编码 --
1. 接口方法
   包含接口名、方法名
2. 方法參数
   包含參数类型、參数值
3. 调用属性
   包含调用属性信息,比如调用附件隐式參数、调用超时时间等

-- 返回编码 --
1. 返回结果
   接口方法中定义的返回值
2. 返回码
   异常返回码
3. 返回异常信息
   调用异常信息

除了以上这些必须的调用信息,我们可能还须要一些元信息以方便程序编解码以及未来可能的扩展。这样我们的编码消息里面就分成了两部分,一部分是元信息、还有一部分是调用的必要信息。假设设计一种 RPC 协议消息的话,元信息我们把它放在协议消息头中,而必要信息放在协议消息体中。以下给出一种概念上的 RPC 协议消息设计格式:


-- 消息头 --
magic      : 协议魔数,为解码设计
header size: 协议头长度,为扩展设计
version    : 协议版本号,为兼容设计
st         : 消息体序列化类型
hb         : 心跳消息标记,为长连接传输层心跳设计
ow         : 单向消息标记,
rp         : 响应消息标记,不置位默认是请求消息
status code: 响应消息状态码
reserved   : 为字节对齐保留
message id : 消息 id
body size  : 消息体长度

-- 消息体 --
採用序列化编码,常见有下面格式
xml   : 如 webservie soap
json  : 如 JSON-RPC
binary: 如 thrift; hession; kryo 等

格式确定后编解码就简单了,因为头长度一定所以我们比較关心的就是消息体的序列化方式。序列化我们关心三个方面:

1. 序列化和反序列化的效率,越快越好。
2. 序列化后的字节长度,越小越好。
3. 序列化和反序列化的兼容性,接口參数对象若添加了字段,是否兼容。

上面这三点有时是鱼与熊掌不可兼得,这里面涉及到详细的序列化库实现细节,就不在本文进一步展开分析了。

传输服务

协议编码之后,自然就是须要将编码后的 RPC 请求消息传输到服务方,服务方运行后返回结果消息或确认消息给客户方。RPC 的应用场景实质是一种可靠的请求应答消息流,和 HTTP 类似。因此选择长连接方式的 TCP 协议会更高效,与 HTTP 不同的是在协议层面我们定义了每一个消息的唯一 id,因此能够更easy的复用连接。

既然使用长连接,那么第一个问题是究竟 client 和 server 之间须要多少根连接?实际上单连接和多连接在使用上没有差别,对于传输数据量较小的应用类型,单连接基本足够。单连接和多连接最大的差别在于,每根连接都有自己私有的发送和接收缓冲区,因此大数据量传输时分散在不同的连接缓冲区会得到更好的吞吐效率。所以,假设你的传输数据量不足以让单连接的缓冲区一直处于饱和状态的话,那么使用多连接并不会产生不论什么明显的提升,反而会添加连接管理的开销。

连接是由 client 端发起建立并维持。假设 client 和 server 之间是直连的,那么连接一般不会中断(当然物理链路故障除外)。假设 client 和 server 连接经过一些负载中转设备,有可能连接一段时间不活跃时会被这些中间设备中断。为了保持连接有必要定时为每一个连接发送心跳数据以维持连接不中断。心跳消息是 RPC 框架库使用的内部消息,在前文协议头结构中也有一个专门的心跳位,就是用来标记心跳消息的,它对业务应用透明。

运行调用

client stub 所做的事情不过编码消息并传输给服务方,而真正调用过程发生在服务方。server stub 从前文的结构拆解中我们细分了 RpcProcessorRpcInvoker 两个组件,一个负责控制调用过程,一个负责真正调用。这里我们还是以 java 中实现这两个组件为例来分析下它们究竟须要做什么?

java 中实现代码的动态接口调用眼下一般通过反射调用。除了原生的 jdk 自带的反射,一些第三方库也提供了性能更优的反射调用,因此 RpcInvoker 就是封装了反射调用的实现细节。

调用过程的控制须要考虑哪些因素,RpcProcessor 须要提供什么样地调用控制服务呢?以下提出几点以启示思考:

1. 效率提升
   每一个请求应该尽快被运行,因此我们不能每请求来再创建线程去运行,须要提供线程池服务。
2. 资源隔离
   当我们导出多个远程接口时,怎样避免单一接口调用占领全部线程资源,而引发其它接口运行堵塞。
3. 超时控制
   当某个接口运行缓慢,而 client 端已经超时放弃等待后,server 端的线程继续运行此时显得毫无意义。

RPC 异常处理

不管 RPC 如何努力把远程调用伪装的像本地调用,但它们依旧有非常大的不同点,并且有一些异常情况是在本地调用时绝对不会碰到的。在说异常处理之前,我们先比較下本地调用和 RPC 调用的一些差异:

1. 本地调用一定会运行,而远程调用则不一定,调用消息可能由于网络原因并未发送到服务方。
2. 本地调用仅仅会抛出接口声明的异常,而远程调用还会跑出 RPC 框架执行时的其它异常。
3. 本地调用和远程调用的性能可能差距非常大,这取决于 RPC 固有消耗所占的比重。

正是这些差别决定了使用 RPC 时须要很多其它考量。当调用远程接口抛出异常时,异常可能是一个业务异常,也可能是 RPC 框架抛出的运行时异常(如:网络中断等)。业务异常表明服务方已经运行了调用,可能由于某些原因导致未能正常运行,而 RPC 运行时异常则有可能服务方根本没有运行,对调用方而言的异常处理策略自然须要区分。

因为 RPC 固有的消耗相对本地调用高出几个数量级,本地调用的固有消耗是纳秒级,而 RPC 的固有消耗是在毫秒级。那么对于过于轻量的计算任务就并不合适导出远程接口由独立的进程提供服务,仅仅有花在计算任务上时间远远高于 RPC 的固有消耗才值得导出为远程接口提供服务。

总结

至此我们提出了一个 RPC 实现的概念框架,并具体分析了须要考虑的一些实现细节。不管 RPC 的概念是怎样优雅,可是“草丛中依旧有几条蛇隐藏着”,仅仅有深刻理解了 RPC 的本质,才干更好地应用。

posted @ 2015-03-30 20:56  mengfanrong  阅读(219)  评论(0编辑  收藏  举报