面向对象编程
背景:
1.游戏引擎运行于操作系统上,操作系统又运行于特定的硬件(CUP/RAM/IO)上,因此硬件的瓶颈会限制游戏引擎的性能;
2.由于摩尔定律接近天花板,芯片上晶体管的密集程度再增加的话会严重影响功耗,于是为了继续提升性能,芯片只能不断增加核数量,于是利用多核并行编程成为行业趋势。
进程和线程:
进程:
1.一个应用程序实例;
2.拥有独立的内存空间。
线程:
抢占式多任务;
系统所能调度的最小单元任务;
必须“寄居”在进程中;
共享进程中的内存。
多任务处理方式:
抢占式:
1.当前正在执行的任务会被调度者打断一次;
2.调度者决定哪个任务先执行;
3.大多数操作系统都是抢占式。
非抢占式:
1.任务必须明确的被编码以挂起(yield);
2.任务间必须协同合作才能实现调度方案;
3.现在很多运行时操作系统RTOS也支持这种模式。
线程间切换 - 先保存线程的状态,稍后再回复执行:
1.一个需要切换的情景:当1核跑2个线程,为了保证“并行”两个线程会不断切换;
2.一个线程的状态包括寄存器、堆栈和其他操作系统数据;
3.线程间切换意味着额外的开销在“用户态-内核态”,单是一个系统中断(user to kernel ->context switch -> kernel to user)就要2000 cycles;
4.而且,当切换到新的线程后,各级缓存中的数据还是旧线程的数据,需要从内存中读取新线程的数据(Cache invalidation),开销又会增加10,000~1,000,000 cycles。
结论:线程间的切换很昂贵。
易并行计算问题(Embarrassingly Parallel)VS 不易并行计算问题(Non-Embarrassingly Parallel)
Embarrassingly Parallel:任务间没有依赖关系,如蒙特卡洛积分计算
Non-Embarrassingly Parallel:大多数情况
并行编程的困难
【Data Race】
Data Race:一个进程中的不同线程同时使用共享内存中的相同数据。
例子:A线程在使用数据过程中,B线程改了数据。
Data Race解决方法:
1.Lock
通过mutex.lock()和mutex.unlock()锁定 critical section,同一时间只有一个线程处理数据。
带来的问题:
1.1线程暂停和恢复会带来性能开销;
1.2如果获得锁的线程异常退出,其余暂停的线程永远恢复不了(死锁);
1.3高优先级任务无法从低优先级任务那里获得锁,从而无法优先执行。
2.Atomic Operation - Lock Free
优点:系统底层支持的原子操作,可以有效避免了死锁。
带来的问题:原子之间的等待和依赖会带来大量空洞(时间块空白)。
【编译优化导致重新拍讯】
编译型语言,编译器在保证单线程中结果正确的情况下,会对指令进行优化,可能会导致指令执行顺序错乱,导致在多线程的情况下的无序所造成的问题。
很多CPU架构为了追求性能(不被动等待指令执行,而是主动把一个函数中的所有指令都同时处理),都会进行指令优化(表现:在PC模拟器上运行没问题,放在真机上宕机;或者在debug版本正常,在release版本异常)。
游戏引擎中的并行架构
【固定数量多线程】
网络线程+渲染线程+模拟线程+逻辑线程
固定多线程的问题:
1.不同线程的工作量不同,核利用率均衡;
2.当有更多处理器的核的时候,无法增加线程数量。
【Fork-Join】
Named Thread+ Worker Thread,可以动态把一个工作量大的任务分到多个工作线程中,当工作量小的时候可以合并回来。
树形结构。
优点:工作量较为均衡,可利用多核的优势。
Fork-Join的问题:
1.对于写逻辑的程序员不友好,需要分割任务和管理线程数量;
2.当线程(分叉)过多时,线程间的切换会有性能开销;
3.依然会有工作量均衡问题(主干线程负荷大,分叉出去的线程负荷小)。
【Task graph】
有向无环图结构,节点是任务,边是依赖关系。
任务图的问题:
1.图的构建对于技术开发人员不透明;
2.早期的版本任务不能完成之前插入其他任务。
Job System
【Coroutine】
在一个协程中,函数做到一半,可以通过yield“让道”给其他任务,再通过resume恢复。
Coroutine vs. Thread
Coroutine:
1.由开发者调度;
2.多个协程在一个线程中执行;
3.轻量级上下文,切换在线程中,开销很小(底层并不知道有切换)。
Thread:
1.由操作系统调度;
2.居住在进程中;
3.上下文切换需要系统中断,开销很大。
Stackful Coroutine vs. Stackless Coroutine
Stackful Coroutine:
1.带运行时独立堆栈,同时也需要更多的内存;
2.函数中的局部变量,在yield时会被记录下来,重新回来时恢复,同时协程上下文切换需要更多的时间;
3.可在嵌套协程中yield。
Stackless Coroutine:
1.不带运行时独立堆栈,没有额外的内存分配;
2.类似C++的goto,重新回到函数时,之前的状态会丢失,协程上下文切换更快;
3.不可在嵌套协程中yield。
【Fiber-based Job System】
理念:构建一个通过高速管道Fiber,任务在管道里切换开销降到最小。
Fiber:类似于协程,不同的是由调度系统来调度。一个Fiber管道对应一个工作线程。
Job System减少性能开销的核心思想:一个工作线程对应一个核,job间切换不会引起Thread间切换。
Work Thead(Fiber)如何调度jobs:
1.Job Scheduler(调度者)决定job被分配到哪个Work Thead(区别于Fork-Join,其实单线程,只是任务多了以后分成多线程)
2.调度模式:LIFO,因为在大多数情况下,job依赖更像树形结构;
3Job Dependency:当有被依赖的子jobs执行时,父job会被放入等待队列(yeild),等子jobs执行完再重新压入Work Thead执行;
4. Job Stealing:调度者会把负载过大的Work Thread中的job“偷”移到空闲Work Thread中,平衡负载。
Job System的优点和缺点:
优点:
1.很容易去执行任务调度;
2.很容易控制任务依赖;
3.job栈是独立的,不会相互干扰;
4.没有硬件中断,避免经常上下文切换。
缺点:
1.C++原生不支持Fiber,得自己实现(boost);
2.很难在不同的操作系统中执行;
3.ABA case处理(heap空间中A被清空了,B又进来了且数据跟A相同,则检测空间时误认为还是原来的数据)
一句话解释Job System:
传统并行编程通过创建多线程的方式,弊端很明显:当核过多得时候浪费,核过少的时候线程切换导致性能开销过大;Job System通过“一核 一线程 一高速管道”的方式,解决了以上2个难题。
编程范式----------------
游戏引擎中的各种编程范式:
1.命令式编程 Imperative Paradigm:Procedural Programming, Object Oriented Programming, Structured Programming;
2.声明式编程 Declarative Paradigm:Functional Programming,Logic Programming。
面向过程的编程
面向对象的编程:更符合人对世界的描述
面向对象编程的问题:
1.二义性:"Attacker.doDamageTo()" or "Victim.receiveDamage()"?
2.继承数中的方法:很难找到/明确方法是定义在哪个父类中;
3.过于繁复的基类:有大量实现各种功能的函数;
4.性能问题:
4.1内存分散:由于数据全部会分散到各个objects中,而每个object经过继承全是异构,导致alloc和dealloc都是分散进行,导致OOP系统的内存占用是非连续的(CPU读取消耗大);
4.2虚函数指针乱跳;
5.可测试性:由于一个单位的数据集中在object中,为了测试单位的一个功能,必须先把这个单位的object的所有数据和状态创建出来。
面向数据的编程
背景:CPU的访问数据远远大于内存。
导致:通过增加各级cache来加速数据访问。
L1 cache - 1M,读取速度1ns
L2 cache - 10M,读取速度3ns
L3 cache - 64M,读取速度10ns
Memory,读取速度100ns
局部性原则:处理器越来越趋向于访问一段连续内存,以减少读取次数。
CPU加速读取原理:
1.现代CPU基本实现了SIMD,即一次性读32bit*4(16byte)数据,一次性计算vector4,4倍的加速;
2.LRU(Least Recently Used),当cache不足的时候,会优先保留最近使用的。
基于以上亮点,我们尽量把data放在一起。
cache line:从各级缓存读取固定大小的数据块,一行cache line通常为64bytes。
cache miss:读取顺序不同,效率可能差2个数量级--假设L1 cache 有4行cache lines,每行64bytes,即可读取4*16 integers的连续数据;对于一个矩阵,如果按行的方式读取,内存是连续的;但如果按列的方式读取,内存是非连续的,读取效率相差(列数*各级缓存数)倍!
面向数据的编程的核心思想:一切(代码、特效、网格...)皆数据,尽量保证在cache中在一起,减少cache miss。
效率提升:1~2个数量级。
性能敏感编程
减少顺序依赖:
1.工作会因为误判而停止。
2.变量初始化后,不要改变它的值(否则将不会并行处理)。
False Sharing in Cache Line:不要让多个线程同时读写同一个cache line(否则会有双倍数据移植消耗)。
Branch prediction:编译器会把if-else某个分支的执行代码直接放到cache中,以至于如果分支切换频繁会导致更新cache频繁,影响效率。解决方法有:1先排序,尽量减少分支切换;2不用if-else,而是分好组。
性能敏感数据组织
Array of Structure vs. Structure of Array
Array of Structure(AOS):一个对象对应一个Structure,里面有N个属性,多个Structure组成一个数组,属性与属性是分离的;
Structure of Array(SOA):所有同质的数组,所有数组组成1个Structure。
SOA优点:
1.缓存友好;
2.最优化SIMD吞吐量;
3.省padding,节省内存。
SOA缺点:
1.系统外如用AOS需要转换;
2.?分支造成浪费;
3.连续元素之间不能相互依赖;
4.要特别处理余下数据。
ECS架构
用面向对象的方式实现的Component-based设计,性能开销大:
1.CPU等指令加载,等数据加载;
2.每帧都要在每个component来回切换以便分别tick;
3.继承、虚函数导致读取数据和函数地址乱跳。
一种以面向数据的方式构建游戏代码以获得更好性能的设计模式:
Entity::只是一个ID,指向一组components的特定数据(区别于Component-based中的类对象)
Component:数据,除了读写没有其他逻辑处理(区别于Component-based中有各种逻辑如tick、move...)
System:读取components中的数据,进行逻辑处理
Unity Data-Oriented Tech Stack (DOTS)三根支柱
ECS:提供面向对象框架
C# Job System:提供了便捷的方法去生成多线程代码
Burst Compiler:生成快速及经过优化的原生代码
Unity ECS
Archetype:含有同样components的entity,归类为一种Archetype,如playerA\playerB归类为Archetype M,npcA\npcB归类为Archetype N。
Chunk:一块固定大小(一般为16KB~128KB)的内存,把Archetype塞到chunk中,一块chunk中Archetype相同。
System:访问chunk中的数据非常快,例如处理playerA.hp + playerB.hp,只需要在一块chunk中读取数据。
Unity C# Job System
Native Container:一种可以在jobs内部访问的共享内存,需要语法明确定义,有3个特点:
1.没有了native container,job无法输出结果,数据是拷贝的;
2.native container支持所有安全检查(因为跳过了C#的GC);
3.native container必须手动disposed()
High-Performance C# and Burst Compiler
HPC#:
1.是C#的子集
2.放弃了大多数标准库 (StringFormatter, List, Dictionary, and etc.)
3.不允许自动内存分配、反射、垃圾回收和虚调用
Burst Compiler(独立编译器)
为特定的平台生成特定的机器代码
为什么需要实现独立编译器:常规的编译器能优化代码的执行,但几乎不能优化数据布局。
Unreal Mass Framework
Entity as Entity
Fragments as Components
Processors as Systems:
1.Fragment Query
2.Execute
Fiber-based Job System 和ECS的关系:
Fiber-based Job System 和ECS追求的效果相同,有交集的部分,但并没有高度一致。
Unity的DOTS和Unreal的Mass System都不是基于Fiber-based Job System,而是基于Fork-Join和Dependency Graph。
DOP vs. OOP:
DOP的维护成本极大,不当用的时候不要用,游戏引擎大部分情况还是基于OOP和Component-based。
DOP适合用于:
1.处理大量同质数据;
2.较少分支
游戏中的应用:
1.粒子、柔体、刚体、流体模拟;
2.碰撞、可见性检测;
3.骨骼动画;
4.群体行为模拟。
附底层指令耗时表(单位:CPU Cycles):
简单的寄存器指令操作(ADD,OR,etc.) <1
内存写入 ~1
bypass delay:切换整型和浮点型点表示数据单元 0~3
正确的“if”分支 1~2
浮点型点相加 1~3
整型/浮点/向量 相乘 1~7
返回错误和检查 1~7
L1 cache read 3~4
TLB miss 7~21
L2 cache read 10~12
错误的“if”分支(branch misprediction) 10~20
浮点型点除法 10~40
128位向量除法 10~70
Atomics/CAS 15~30
C函数正确调用 15~30
Integer除法 15~40
C函数错误调用 20~50
C++虚函数调用 30~60
L3 cache read 30~70
Main RAM read 100~150
NUMA:不同socket的Atomics/CAS(guesstimate) 100~300
NUMA:不同socket从L3读数据 100~300
分配+释放内存(小对象) 200~500
Kernel call 1000~1500
线程上下文(正确)切换 2000
C++抛出并捕获异常 5000~10000
线程上下文(异常)切换,包含缓存失效 10000~1,000,000
Q&A
并行编程比较好的debug方法?
1.log,但容易导致时序变化;
2.先damp出所有dependency,保证单线程中逻辑执行正确。
渲染线程和逻辑线程的同步怎么做?
A:由于存在数据的依赖关系,必须隔开,渲染线程比逻辑线程慢一帧处理。所以不可能把整个引擎的数据交给job system。
Struct vs. Flexible Table
Struct:在编译器就把所有内存预定好,等运行时按照预定好的分配内存,但struct有2个问题:
1.struct里面有一大堆成员变量,不管有没用到都会分配内存,浪费内存;
2.各成员的内存长度不同,导致需要padding内存对齐,而且占用大小不是固定的块大小,不利于CPU高速读取缓存SIMD。
Flexible Table :灵活的Struct
放弃在编译器预定好内存,而是在运行时“自由”组装一个table,根据table的大小动态分配内存,用的malloc实现,优点是:
1.需要用多少数据就分配多少内存,不会浪费;
2.所有数据在内存中都紧挨在一起,不管是访问还是CPU做SIMD效率都很高。