随便谈谈网络通讯延迟和应用

首先丢出2个简单定理。
 
定理1
任何所谓的软件编程本质上都是面向硬件编程
 
定理2
任何软件操作的根本延迟受制于硬件循环所需要的时间
 
计算机作为一个输入输出设备,本质上就是3个步骤,输入、处理、输出。计算机之间的通讯媒介,无非有线无线,其实主要是取决于介质和通讯方式。
 
如果是有无线的场合,包括WiFi或者是无线电RF还是所谓的5G,都在这个范畴。WiFi存在Jitter,这个延迟必须考虑在内,一般会考虑多个WiFi的NIC提高带宽减小延迟。民用无线电技术如今可以做到40Gbps的带宽不是问题,延迟也较低,但是这个容易有干扰,还需要无线电执照许可,比如无人机都用WiFi的公共频段,所以机器在某个场合聚集就都废了,而且干扰技术也压根不存在问题。
 
有线,只要是基于电的,那都逃不过物理定律,非超导的常温状态下,联系到基本电磁干扰和信号衰减,距离做到百米级别,带宽做到10Gbps已经是极限。需要比如10Gbps以上的带宽往往都是光纤接口。这个好处是简单粗暴,买硬件设备和电缆就行。
 
但是,有些场合是不需要考虑延迟的,而是需要可靠性的,比如HTTPS的响应。TCP加上TLS这一层,这个其实是怎么都不会快的,对于一个看网页的用户来说,100ms和200ms的响应,是没几个人会抱怨的,通过CDN等等可以优化吞吐到很理想的状态,也就是小于100ms,接近于本地的的速度。这个WiFi的好处就是随处可得,问题是搞延迟低吞吐。
 
如今的Web应用,从TCP/IP模型看,主要是第4层应用层的折腾,IP层都不会考虑,靠买设备解决。我称之为延迟在100ms以下的应用。这个往往都是通过CDN来,但是也不会小于15ms。本质上还是堆设备以及在现有的TCP/IP的第3层上捣鼓,优化路由优化连接,以城市为单位部署更多的节点诸如此类。
 
但是要记得,15ms是一个很高的延迟。为什么这么说,因为15ms几乎是现有互联网跨地域应用的一个极限,也就是无论是你玩游戏也好,所谓的低延迟视频的也好,所谓的低延迟实时数据分析也罢,这个延迟对于现有GPCPU(看清楚,不是GPCPU)来说,都逃不过定理2——就是说,你怎么折腾,从NIC触发中断,然后Kernel再来折腾,然后再来通知Userspace的程序去处理,如果是转发的话这个再来一遍,这个过程已经消耗了许多CPU循环,而且许多操作跟数据处理本身并无关联。当然可以打一下Realtime Linux内核补丁,但是从根本上来说,这些步骤都需要进行,都是基于现有的硬件之上,所以本质上也没什么意义。看到搞什么Apache Spark+Kafka的就觉得搞笑,就这些Java堆起来的大路货,最多做做Web应用,在核心关键场合,这些都统统得废。
 
当你在本地跑个NodeJS,本地发个HTTP请求,那个已经最少1ms,这个就是单个PC工作站能做到的极限——跑了一圈应用程序的Runtime,到OS API,外加TCP/IP Stack,然后返回结果再重新跑一轮。在异步编程还没流行的时代,服务器的表现其实也并没有太差劲,而且同步网络编程好写逻辑。但是归根结底,无论同步和异步,都是仰仗硬件架构加上OS的核心API提供给上层。应用程序得益于多线程使得逻辑和网络发包线程可以分开,但是其实只是充分利用了系统的间歇性存在的资源,和本质上的提高并无相关。也就是说给定输入输出设备,服务器跑个Linux,无论是用libuv(C)、libevent(C)、netty.io(Java)、asio(C++)、Erlang、Scala等等随便什么框架写的应用,处理效率只可能在某个极限戛然而止。当然这里存在许多迷信成分,就是比如优化内存分配,优化连接,最后都会落实成部署更多的节点。当今C和C++语言连带框架构造的网络服务系统,是当今现有计算机体系网络性能的极限,比如Netflix。你堆什么框架,都是一样,不可能解决根本延迟问题,改进的只是开发的时间、风格、成本问题等等其他方面。
 
顺便提个GPU。这NVIDIA本来就是靠卖硬件吃饭的公司,出货量就是一切。对于应用程序来说,如何驱动GPU工作,那得再加一层驱动核心,上层怎么CUDA或OpenCL,最后都绕不过Driver那个地方。而且Driver还不是问题,Driver本身的职责是个复杂的调用,包括DMA和设备管理了。前者会连到坑爹的IO部分,后者各自厂商有各自的应用解释层,本质上也是用一套API操作GPU。所以对于低延迟和高IO访问、随机访问的程序,GPU是很少干的过CPU。唯一的可能就是当单个步骤的线性计算量很大,CPU不划算的时候,GPU才有用武之地。看,如果GPU性能真的有纸上那么强,现有的游戏帧速度应该早就突破成千上万,GPU计算延迟应该极地,但是其实最后并没有,因为指标和执行是两个概念,参考定理2。可能有人会说AI\ML加速,看,如果真的GPU是终极解决方案,那Google就没有必要发展TPU了,因为无论如何,GPGPU的架构和执行模型不可能干的过独立的芯片。
 
还可以提一下FPGA+PC。这个架构目前云端已经有,号称提供低延迟,但是其实并没有解决本质问题。设想,一台装在机房里的云端节点,插上了FPGA加速卡,然后就号称能做什么了,这个就和GPU一样,不好意思还得走PCI-E总线和MMU内存控制器,一般来说还是得有驱动那一层干这个,不然无法驱动FPGA卡进行工作。这个FPGA表现对比GPU是折中,就是说它的硬件循环延迟要低于CPU(看具体型号),远低于GPU,但是吞吐量是不如CPU和GPU的。FPGA的性能很好计算,看FPGA的频率,看吞吐计算量,当然还有处理逻辑。有些计算FPGA非常有优势,比如FFT,当然也有限制,比如一旦牵涉到了浮点计算这个效能会降低。
 
许多文章已经考虑过FPGA和GPU,比如这一篇《GPU vs FPGA Performance Comparison》,列出了FPGA和GPU的优劣势对比图。
 
那么对于如今的AI来说,GPU是足够用的,比如训练视频流数据,无非就是解码后丢给训练框架,这个地方吞吐不会巨大,一般民用的所谓视频AI分析并没有低延迟的需求。譬如1920x1080@30fps,首先摄像头和编码理论上需要最少2*33=66ms,然后是网络传输的时间,假设为15ms,再加上进入主机程序丢给GPU解码,解码器最少需要1-2帧的延迟,然后是训练然后输出,那么假设我们开始训练一个摄像头的数据,从摄像头接收可见光辐射,到人类坐在办公室里看到镜头,已经需要了最少100ms,再考虑一下实际运行环境以及客户端软件编写水平的差异,最好的结果往往是小于200ms。当然这个延迟对于如今的应用来说可用,但是延迟依然是实在是太高了。这种乐高级别的系统做做某些CV应用还是可以的,毕竟人类没见过几个在街头蒙上面具以奥运会百米冲刺的速度飞奔。
 
那么对于特种应用来说,假设给定网络硬件部分、CPU和操作系统,对于简单计算来说,FPGA是会比GPU效能更高的。因为首先哪怕是50Gbps的NIC,对于单个网络应用来说,单个会话数据流也是吃不满的。那么就是变成了,每一个业务循环输入输出真正完成的时间,才是系统的总延迟。上面的关于视频的问题,显然纯粹FPGA编解码是可以达到所谓的实时性能,也就是整个系统最少有2-3帧时间的延迟。我说的是直接摄像头捕获到输出端的显示,不是什么预录制的视频编解码,这种例子一点意义都没有。
 
许多特种应用,需要极低的延迟。这个时候根据考量,如果是距离在允许范围内,一般只考虑电磁传输,比如微波通信在金融系统中的应用。做金融通讯的可以不计成本的怼高技术和硬件,提高几个ms在交易上是可以有巨大优势的。如今华尔街都是应该目标瞄准纳秒级别的通讯延迟了,豪秒已经没什么搞头了——毫秒是A股水平,上海的租用的机房能够提供大概<50ms的延迟,当然套利组合那边不要创造收益率负83%然后跳楼就行。纳秒级别的通讯配上全球原子钟阵列,这个可以一战。
 
现在问题了,立足于ISA和逻辑门电路的这种体系,本质上是面向GPCPU的,也就是譬如x86这种,你的每一个LEA,每一个CALL,对于CPU来说都是高层API,底层流水线那边都得跑一串。解决方案当然是买卡,买FPGA卡来做,把一部分逻辑丢在网卡上做完,进入PC的都是面向高层的应用,比如数据库IO、可视化监控等等,这些都是属于非延迟关键的场合。当然最后的关键是往往买卡也是搞不定的,因为卡的延迟也会出现,最后应用套利组合的现场会受制于当前的硬件架构,这个是最高的极限,不过一般可以接受。
 
末了,我理想中最佳的低延迟方案是,1)传输部分全部是微波或者光纤,2)高度优化的网络连接接口,3)计算部分直接在硬件层次上完成,理想是ASIC,最多用一下FPGA,4)如果需要外部数据,实现一套硬件Cache,而且编码上百分之百的针对硬件的行为进行优化。这么一套组合拳下来,这个特殊系统的低延迟还是很容易办到的。
 
本文谢绝转载。欢迎行业公司和个人联系探讨。 
posted on 2019-01-12 11:34  Bo Schwarzstein  阅读(1278)  评论(0编辑  收藏  举报