因为分布式计算也没法跑,也没代码,这个太复杂了,仍然是听理论即可。
GPU机器架构:
机器的效率是有一个比较明确的层级关系的,我们应该尽量在GPU之间做数据交换,实在不行通过CPU去内存做交换,但是应该尽量避免机器之间的数据交换。
能在本地做的尽量在本地做,尽可能减少机器的交互次数。
并行的时候,一般要让计算时间大于接发送所需的传输时间,不能让GPU等待。