"Loads are not reorderd with other loads" is a FACT!!

对于多线程编程的难度,再充分的心里准备也许都是不够的。前一段时间一直在整理一些有关多线程编程的内容(一个对多线程算法库编写过程中的经验积累)。而在前天,一篇来自于Microsoft PFXJoe的博文惊现:"Loads cannot pass other loads" is a ~myth,着实让人惊出了一身冷汗。

 

讨论集中在了以下的例子上:

 

    P0          P1
    ==========  ==========
    X = 1;      Y = 1;
    R0 = X;     R2 = Y;
    R1 = Y;     R3 = X;

 

问:如果X, Y volatile 有没有可能使得执行完毕之后 R1 == R3 == 0 呢?

 

先不说结果,从现象分析,具体信息请参考。首先,在.NET 的内存模型下,任何store均有relase语义而任何volatileload均有acquire语义。由于相关,R0 = X 不可能调整到 X = 1 之前执行;同理 R2 = Y 也不可能调整到 Y = 1 执行。参考Intel 白皮书中的2.1节可知,“loads are not reordered with other loads and stores are not reorderd with other stores”。因此 R1=Y也不可能移动到R0=X之前,同理,R3=X也不能移动到R2=Y之前。

 

综上所述,想要得到R1==R3==0的结果看上去是不可能的。但是这个事情确实有可能发生。参考Intel的白皮书中的2.4节:“intra-processor forwarding is allowed”恰恰举了相同的例子,并且指出,R1==R3==0是完全可能的。Joe指出,在这种情况下,程序就好像是这样运作的:

    P0          P1
    ==========  ==========
    R1 = Y;     R3 = X;
    X = 1;      Y = 1;
    R0 = X;     R2 = Y;

 

 

这是怎么一回事呢,难道自相矛盾吗?实际上不是的!白皮书中2.1节说明的情况是memory reorder,而2.4节并没有否定2.1的内容。内存访问的reorder规则仅仅满足于当前的processor,而并不保证所有的结果其余的processor可见。这是由于写入延迟造成的。因此这个问题并没有否定在上述例子中reorder不可能发生的事实,而是对于其他处理器来说“好像是”发生了reorder一样。

 

load acquire与store release实际上看做不完整的half fence,不能保证其他CPU的可见性。那么这种问题如何解决呢?参考Intel 64 And IA-32 Programming Manual可知,如果要保证可见性,应该在必要的位置使用memory fence。因此,解决上述问题的方式是在恰当的地方添加full fence,或者包含隐式full fence的指令,例如Interlocked.Xxx。即

    P0          P1
    ==========  ==========
    X = 1;      Y = 1;

    MemoryFence;MemoryFence;
    R0 = X;     R2 = Y;
    R1 = Y;     R3 = X;

 

注:在.NET framework中,插入一个Full fence可以使用 System.Threading.Thread.MemoryBarrier()方法。

 

posted @ 2008-07-19 11:57  TW-刘夏  阅读(2389)  评论(11编辑  收藏  举报