[c语言]运算符的优先级与结合性
c语言中运算符的优先级和结合性常常被人混淆一谈,本文目的在于简单谈谈两者的区别。本文举几个简单的例子说明,这些运算符也特别常用。
首先要明白的是:优先级决定表达式中各种不同的运算符起作用的优先次序;而结合性则在相邻的运算符的具有同等优先级时,决定表达式的结合方向。
[赋值运算符“=”]
对于赋值运算符来说,常会用到的是连续赋值的表达式。比如“a=b=c”。
这里的变量b的两边都是赋值运算,优先级当然是相同的,那么应该怎么理解这个表达式呢?我们知道,赋值表达式具有“向右结合”的特性,这就表示这个表达式的语意结构是“a=(b=c)”,而不是“(a=b)=c”。这意味着首先完成c向b赋值,然后将表达式“b=c”的值再赋给a。这个区别特别重要!因为可能会涉及到强制类型转换、初值不同等情况,所以不同的理解得到的答案是不一样的。
这里我们再来看一般的二元运算符,为了说明方便,我们现在不妨记作@。如果它是“向左结合”的,那么表达式“x@y@z”表达的意思就应该是“(x@y)@z”;如果是“向右结合”的,那么应该表达的是“x@(y@z)”。这里值得注意的是,这里的二元运算符可以不是同一种运算符,只要有同等优先级,以上结论就是适用的。比如“a*b/c”表达的就是“(a*b)/c”。
[自增运算符“++”与解引用运算符“*”]
这一节我们以例子“*p++”引出。下面这个据说是烂大街的实现strcpy函数的示例代码:
char* strcpy( char* dest, const char* src ){ char*p = dest; while(*p++ = *src++); return dest; }
我们很快发现,理解这一小段程序的关键就在于怎么理解这个循环条件“*p++”的含义。
首先,解引用运算符“*”的优先级低于后面的自增运算符“++”,所以这个表达式在语义上等价于“*(p++)”,而不是“(*p)++”。这里从语义上来说,括号是多余的,当然从程序的可读性来说建议还是加上括号。
还有一个问题常让人糊涂,就是自增运算符“++”的语义。很多书上写“后自增是先取值,后加1”。这样讲是没有错的,但在一些特定的语境上容易让人无解,比如上面这个while语句。
才开始学习的时候肯定有这样的疑惑:当一个表达式同时包含自增、解引用、赋值,且最终作为控制循环的条件的时候,这里的“前取值”到底“先”到什么程度呢?这时候我们需要查阅一下c语言标准。以下摘自C99标准:ISO/IEC 9899:1999:
6.5.2.4-2:The result of the postfix ++ operator is the value of the operand. After the result is obtained, the value of the operand is incremented. …… The side effect of updating the stored value of the operand shall occur between the previous and the next sequence point.
也就是说,后自增表达式的结果值就是被自增之前的那个值,然后这个结果值被确定之后,操作数的值会被自增。而这种“自增”的副作用会在上一个“序列点”跟下一个“序列点”之间完成。
本文不打算详细讨论序列点。有兴趣的读者可以阅读一下标准。需要指出的是:赋值运算在C语言中并不是一个序列点,所以,上面的while语句中,src的自增效果无需是在赋值之前完成。但while的整个控制表达式的结束却是一个序列点。
我们可以这样解读“while(*p++=*src++);”:首先while的条件变量是一个赋值表达式,左侧操作数是“*p++”,右侧操作数是“*src++”,整个表达式的值将是赋值完成后左侧项的值。而左右两侧是对两个后自增表达式解引用,由前面的说明可以知道,解引用作用于整个后自增表达式而不仅仅作用于p或src本身,那么根据上面引用的标准,他们“取用”的人别是指针p和src的当前值。而自增的副作用只需要在下一个序列点之前完成即可。
简单地说,编译器分别取得指针p和src的当前值,基于这个值完成“*src”向“*p”的赋值;同时这个赋值结果也将作为整个赋值表达式的值,用来决定是否退出循环。然后,在整个表达式结束时的某一个时刻(在不影响之前叙述的前提下),p和src人别加1。
也就是说,我们基于p和src的旧值所进行赋值和循环条件判断,然后完成p和src的自增。
另外,这里有关于后自增(后自减)运算的另外两种表述,虽然与c语言标准上的说法并不完全一致,但在最终的语义效果如出一辙:
(1)后自增“x++”相当于一个逗号表达式:“tmp=x,++x,tmp”;
(2)后自增就是把操作数加1,然后返回加1之前的值作为整个表达式的值。
这里值得一提的是,在c++语言中需要重载后自增运算符时,往往采用的机制就是基于这两种说法。
再举一个据说还是烂大街的实现:
size_t strlen(const char* str){ const char* p = str; while(*p++); return p - str - 1; }
我们发现函数最后有一个减1的操作,这是因为当循环条件不满足而退出循环时,会在“正式”退出之前,后自增运算符“++”加1的副作用。可以这么理解:所谓“退出循环”,指的是“不再执行循环体”,但控制表达式并不是循环体的一部分,它的所有副作用在整个表达式结束之前都会生效。
这一节的最后,重要的事情再说一遍:*p++就是*(p++),两者除了可读性以外没有任何区别。那种认为加上括号就可以实现先加1再解引用的想法是错误的,要想实现那样的效果,可以用“*++p”。
[三目元算符“ ? : ”]
先给出一个例子:
int x = 3; int y = 2; int z = x > y ? 100 : ++y > 2 ? 20 : 30;
我们会关心z的值是多少。
这里是两个三目运算符的嵌套,有“向右结合”的特性。许多人认为基于这个性质,右侧的内层条件运算“++y>2?20:30”应该先求值。即y先加1,大于2的条件成立,从而使这个表达式取得结果“20”;然后求整个表达式的值,这时y的值是3,所以“x>y”为假,故整个结果是刚刚求得的20。
然而事实并不是这样…… 这种思路是错误的!!!
这里的错误在于:把优先级、结合性与求值次序完全混为一谈。
首先,在大多数情况下,c语言对表达式中各个子表达式的求值次序并没有严格的规定;其次,即使是求值次序确定的场合,也是要先确定了表达式的语意结构,在获得确定的语义之后才谈得上“求值次序”。
对于上面的例子,条件运算符“向右结合”这一个特性,并没有决定内层的条件表达式先被求值,而是决定了上面表达式的语意结构等价于“x>y?100:(++y>2?20:30)”,而不是“(x>y?100:++y)>2?20:30”。这才是“向右结合”的真正含义。
编译器确定了表达式的结构之后,就可以准确地为它产生运行时的行为了。条件运算符是c语言中为数不多的对求值次序有着明确规定的运算符之一(另外还有三个,分别是逻辑与“&&”、逻辑或“||”和逗号运算符“,”)。
c语言规定:条件表达式首先对条件部分求值,如果条件部分为真,则对问号之后冒号之前的部分求值(表达式2),并将求得的结果作为整个表达式的值;否则对冒号之后的部分(表达式3)求值并作为整个表达式的值。
因此,对于表达式“x>y?100:(++y>2?20:30)”,首先看x大于y是否成立,在本例中它是成立的,因此整个表达式的值为100。也就是说,表达式3根本就不会被执行,其中包含的自增运算符的副作用也不会生效。
[最后再说几句]
本文主要阐述了以下几点:
(1)优先级决定表达式中各种不同的运算符起作用的优先次序,而结合性则在相邻的两个运算符的具有同等优先级时,决定表达式的结合方向;
(2)后自增(后自减)从语义效果上可以理解为在做完自增(自减)之后,返回自增(自减)之前的值作为整个表达式的结果值;
(3)准确来讲,优先级和结合性确定了表达式的语义结构,不能跟求值次序混为一谈。
PS.
1、本文参考博文:http://blog.csdn.net/steedhorse/article/details/5903974
2、维基百科上有C/C++语言运算符表:http://en.wikipedia.org/wiki/Operators_in_C_and_C%2B%2B
3、曾在新浪微博上见benbearchen提到有的公司在代码规范中要求:如果while的循环体为空语句,那么必需以continue语句代替,不准只写一个分号。我本人很赞成这个。上面strcpy和strlen的两个例子之所以没那么用,只是为了“随大流”,因为这两个函数的示例实现,许多人、许多书上都这么写。