"Loads are not reorderd with other loads" is a FACT!!

对于多线程编程的难度，再充分的心里准备也许都是不够的。前一段时间一直在整理一些有关多线程编程的内容（一个对多线程算法库编写过程中的经验积累）。而在前天，一篇来自于Microsoft 的PFX的Joe的博文惊现："Loads cannot pass other loads" is a ~myth，着实让人惊出了一身冷汗。

讨论集中在了以下的例子上：

    P0          P1
    ==========  ==========
    X = 1;      Y = 1;
    R0 = X;     R2 = Y;
    R1 = Y;     R3 = X;

问：如果X, Y 为 volatile 有没有可能使得执行完毕之后 R1 == R3 == 0 呢？

先不说结果，从现象分析，具体信息请参考。首先，在.NET 的内存模型下，任何store均有relase语义而任何volatile的load均有acquire语义。由于相关，R0 = X 不可能调整到 X = 1 之前执行；同理 R2 = Y 也不可能调整到 Y = 1 执行。参考Intel 白皮书中的2.1节可知，“loads are not reordered with other loads and stores are not reorderd with other stores”。因此 R1=Y也不可能移动到R0=X之前，同理，R3=X也不能移动到R2=Y之前。

综上所述，想要得到R1==R3==0的结果看上去是不可能的。但是这个事情确实有可能发生。参考Intel的白皮书中的2.4节：“intra-processor forwarding is allowed”恰恰举了相同的例子，并且指出，R1==R3==0是完全可能的。Joe指出，在这种情况下，程序就好像是这样运作的：

    P0          P1
    ========== ==========
    R1 = Y;     R3 = X;
    X = 1;      Y = 1;
    R0 = X;     R2 = Y;

这是怎么一回事呢，难道自相矛盾吗？实际上不是的！白皮书中2.1节说明的情况是memory reorder，而2.4节并没有否定2.1的内容。内存访问的reorder规则仅仅满足于当前的processor，而并不保证所有的结果其余的processor可见。这是由于写入延迟造成的。因此这个问题并没有否定在上述例子中reorder不可能发生的事实，而是对于其他处理器来说“好像是”发生了reorder一样。

load acquire与store release实际上看做不完整的half fence，不能保证其他CPU的可见性。那么这种问题如何解决呢？参考Intel 64 And IA-32 Programming Manual可知，如果要保证可见性，应该在必要的位置使用memory fence。因此，解决上述问题的方式是在恰当的地方添加full fence，或者包含隐式full fence的指令，例如Interlocked.Xxx。即

    P0          P1
    ==========  ==========
    X = 1;      Y = 1;

    MemoryFence;MemoryFence;
    R0 = X;     R2 = Y;
    R1 = Y;     R3 = X;

注：在.NET framework中，插入一个Full fence可以使用 System.Threading.Thread.MemoryBarrier()方法。