CPU 应该搞 0 级 Cache ，而不是大寄存器

CPU 应该搞 0 级 Cache ，而不是大寄存器。

具体的说，是 CPU 应该搞精简指令集 RISC 和 0 级 Cache ，而不是大寄存器。

0 级 Cache 也可以称为 L0 Cache 。

0 级 Cache 是离 CPU 最近的 Cache，访问只需要 1 个时钟周期，和寄存器一样。

那 0 级 Cache 和寄存器有什么区别呢？

0 级 Cache 在内存地址编制内，和一级 Cache 、二级 Cache 、三级 Cache 、内存在一个统一的地址空间里，按统一的地址管理。

而寄存器是不在内存地址编制里的。

0 级 Cache 从下级存储（一级 Cache 、二级 Cache 、三级 Cache 、内存）载入载出哪些数据是完全由程序员控制的，具体的，是完全由程序员用汇编指令控制的。

这是和一级 Cache 、二级 Cache 、三级 Cache 的不同。

一级 Cache 、二级 Cache 、三级 Cache 载入载出哪些数据是由 CPU 自己决定的，比如根据命中算法，程序员无权干涉。

程序员用指令 map_in 将内存（一级 Cache 、二级 Cache 、三级 Cache）地址和数据映射进 0 级 Cache ，如果 0 级 Cache 里的存储单元原来已经映射了地址和数据，此时将新的地址映射到这个存储单元，则旧的数据将替换为新的数据，旧的映射地址将映射成新的地址，如果旧的数据被修改过，则要先写回对应的内存（一级 Cache 、二级 Cache 、三级 Cache）地址，这称为 map_out ，也可以称为载出。

map_in 也可以称为载入。

0 级 Cache 的好处是：

1 指针取值（ * 指针）和指针字段（指针 -> 字段）可以享有和局部变量一样的寄存器优化的待遇

寄存器优化就是把常用的数据存在寄存器里反复使用。

在寄存器架构下，指针取值（ * 指针）和指针字段（指针 -> 字段）不容易做寄存器优化，因为指针会改变， * 指针和指针 -> 字段会随指针的改变而改变，

同时， * 指针和指针 -> 字段可能被其它同样指向这个地址的指针修改，比如指针2 和指针相等， * 指针2 和指针2 -> 字段修改的数据就是 * 指针和指针 -> 字段的数据，但是 * 指针和指针 -> 字段并不知道数据被修改。

这还只是单线程的情况。

多线程也会造成类似的数据不一致的情况。

但使用 0 级 Cache 的话， 0 级 Cache 是按地址访问的，和一级 Cache 、二级 Cache 、三级 Cache 、内存同在一个地址编制，对于指针取值（ * 指针）和指针字段（指针 -> 字段），都是按地址访问，不用担心数据不一致的问题。而访问 0 级 Cache 的时间是 1 个时钟周期，和寄存器一样快。

2 多核数据同步和单核多线程并发数据一致

这其实是第 1 点里说的多线程的情况，对于多核的共享数据，修改时要 mutex 并同步到各核的 Cache，在寄存器架构下，对于需要实时同步的多核数据，是不能做寄存器优化的，也就是要禁用寄存器优化，比如 C++ 里的 atomic<T> 原子类型是禁用寄存器优化的。

而现在用 0 级 Cache，就不存在这个问题， 0 级 Cache 和现在的 1 级 Cache 一样，修改原子数据时直接 mutex 和通知其它核同步，

这样会不会影响性能？

不会。读取时仍然是 1 个时钟周期，修改时会发起 mutex ， mutex 要通知到其它核，当然需要一些的时钟周期，另外，若收到其它核已改写数据的通知，要从其它核的 Cache 里把数据同步过来，这也要一些时钟周期。

当收到其它核发起 mutex 的通知时，会等待其它核的 mutex 结束，这需要等待一些时钟周期。

除此以外，读取时是 1 个时钟周期。也就是说，如果自己不改写，也没有收到其它核 mutex 和改写的通知，读取 0 级 Cache 里的原子变量是 1 个时钟周期，和普通变量一样。

对于单核多线程并发共享数据，要保证数据在并发中一致，也要禁用寄存器优化，同理，用 0 级 Cache，就不存在这个问题。

3 编译器 / 程序员不用考虑把寄存器里的数据写回 Cache / 内存

在寄存器架构下，常用的数据存在寄存器里反复使用，用完后（比如函数结束时），如果数据被修改过，要写回 Cache / 内存，

用 0 级 Cache 就不用编译器 / 程序员考虑这件事了。

0 级 Cache 会记录哪些数据被修改过，被修改的才写回映射的内存地址（当然，实际上可能是写 Cache ，也可能写内存），

这需要 0 级 Cache 的硬件电路将被修改过的存储单元标记为 “被修改” ，

对于这一点，硬件电路很容易做到。

事实上，在 0 级 Cache 里，程序员也不用考虑在什么 “时机” 把数据写回一级 Cache （二级 Cache 、三级 Cache 、内存），

因为 0 级 Cache 也是 Cache，和一级 Cache 、二级 Cache 、三级 Cache 、内存本身就是一个体系，

就好像程序员不用考虑一级 Cache 的数据 “写回” 二级 Cache 、三级 Cache 、内存。

“时机” 比如上面说的 “用完后（比如函数结束时）” ，在 0 级 Cache 里，程序员也不用考虑这些。

程序员只要考虑把哪个（需要的）地址映射到 0 级 Cache 的哪个存储单元，这个存储单元原来的数据如果修改过的话，会自动写回映射的地址（一级 Cache 、二级 Cache 、三级 Cache 、内存）。

4 访问 0 级 Cache 只要一个时钟周期，和寄存器一样。如果指针和 * 指针都存在 0 级 Cache 里，则 * 指针一个时钟周期就可以完成，也就是说读写 * 指针一个时钟周期就可以完成。读写指针 -> 字段也可以一个时钟周期完成。

实际上，只要电路的精度可以， * * 指针，指针 -> 字段 -> 字段也可以一个时钟周期完成，甚至， * * * 指针，指针 -> 字段 -> 字段 -> 字段也可以一个时钟周期完成。

* * * 指针，指针 -> 字段 -> 字段 -> 字段，要把指针的多次连续访问放到一个时钟周期（指令）里，则指针的连续访问次数越多，指令的电路元件越多，元件数量随访问次数正比增加。而电路精度越高，比如 5nm、7nm，在同样的芯片面积上，可以设计制造更多的元件。

5 在寄存器架构下，可以将对象的一些字段（比如数组首地址、Length）复制一个副本到局部变量里（栈里），然后再对副本对应的局部变量进行寄存器优化，也就是把副本对应的局部变量放到寄存器里反复使用，说白了，就是把副本放到寄存器里反复使用，这是一种寄存器优化，这种优化方式叫做 “Local Agent” ，副本就是 Local Agent 。

Local Agent 的方式需要注意一个问题，如果副本对应的对象字段发生了改变，则要考虑把这个改变同步到副本，或者即使不同步，仍然接着使用副本，也不会产生程序逻辑问题。

在 0 级 Cache 架构里，如第 4 点所说， * 指针和指针 -> 字段都可以在一个时钟周期完成，也就不需要 Local Agent 优化了，也就不存在 Local Agent （副本）和对象字段的同步。

上面说了大半天，由程序员用汇编指令 map_in 和现在的用汇编指令把数据读入寄存器是类似的，还是一套做法。我后来想了一下，这完全没必要。可以由 CPU 直接将指令（比如加法指令）中用到的数据从内存（一级 Cache）读入（map_in）到 0 级 Cache 就行。这个做法就彻底了，相比现有的寄存器架构，这个做法改革的就彻底了。 CPU 可以用流水架构提前将接下来的指令里要用到的多个数据（并行的） map_in 到 0 级 Cache ，这样就 OK 了，很简单，很清楚。

这个设计极大的简化了编译器的工作，极大的简化了编译器的设计和编写，因为编译的一个主要工作寄存器布局和内存屏障都不需要考虑了，这非常爽，轻松到要飞起来。真的不得了。

在 QQ 群里讨论本文时，我说 “静态约束搞死人，动态判断一句话。”

静态约束是指编译时通过语法约束让程序满足某些要求；动态判断是指在程序运行时判断程序是否满足某些要求，若不满足则抛出异常。

动态判断类比 CPU 用一些统计算法决定哪些数据块（Cache Line）从一级 Cache 载出到内存（三级 Cache），哪些数据块（Cache Line）在一级 Cache 多呆一些时间，可能比较少用到的数据优先载出，可能比较多用到的数据在一级 Cache 多呆一些时间；从 0 级 Cache 载出数据到一级 Cache 也是一样。

静态约束类比编译器构思寄存器布局和内存屏障，也就是编译器要具体的给出每一个数据的读入寄存器和从寄存器写回一级 Cache 的方案。

显然，编译器构思寄存器布局和内存屏障的做法精准到每一个数据的读入写出，但是构思这些很费脑筋，当然你会说这是编译器构思，不用人去构思，但人要构思能做这个构思的算法，也就是人要教会让编译器如何做这个构思，这也是很费脑筋，颇为艰深的。

而 CPU 动态的统计判断数据的使用率来决定载出哪些数据（块），这有概率统计的成分，但是简单易行，人不需要考虑太多东西。

我提倡用模块线路图来设计硬件电路，硬件电路本来就是模块化的，用模块线路图设计很适合。模块的规格，包括接口和电路参数作为模块的说明书单独说明就好。

其实设计 CPU 很简单，主要是制造工艺和电路计算比较难。

精简指令集 RISC 和 0 级 Cache 的架构称为 RISC-L0-Cache 架构，也称为 L0 Cache 架构，简称 L0 架构。

为什么会写这篇文章？写这篇文章的原因是最近（2021-03-26）一直在搞 K-GC / D++ ， K-GC / D++ 是 ILBC 的一个子项目，里面涉及到很多多核数据同步和寄存器优化的问题和设计，然后前几天又看到民科吧的一个帖《民科们速速进来学习》 https://tieba.baidu.com/p/7273181457 ，大致内容如下，就想到了 0 级 Cache 的想法。