假设只接受public/private两个修饰符,并且只接受void/bool/int三个返回类型,接受字段、属性和函数。函数不允许有参数,属性有get/set(为简单起见,先get后set),字段只能是bool/int两个类型(不允许初始化)。函数和属性的内容为空,只有一对花括号。那是不是应该这么写呢?
(?<function>(?<modifier>public|private)\s+(?<return_type>void|bool|int)\s+(?<function_name>\w+)\s*\(\s*\){\s*})|(?<property>(?<modifier>public|private)\s+(?<return_type>void|bool|int)\s+(?<property_name>\w+)\s*{\s*get\s*{\s*}\s*set\s*{\s*}\s*})|(?<variable>(?<modifier>public|private)\s+(?<variable_type>bool|int)\s+(?<variable_name>\w+)\s*;)
这么写是对的,但是效率方面却不是很好。对于这个简单的情况可能还是体现不出来,但是如果更加复杂的话,可能就会出现效率低下的问题了。我们应该怎么怎么改呢?
(?<define>(?<modifier>public|private)\s+(?>(?<type>void)\s+(?<name>\w+)\s*(?>(?<function>\(\s*\)\s*{\s*})|(?<property>{\s*get\s*{\s*}\s*set\s*{\s*}\s*}))|(?<type>bool|int)\s+(?<name>\w+)\s*(?>(?<function>\(\s*\)\s*{\s*})|(?<property>{\s*get\s*{\s*}\s*set\s*{\s*}\s*})|(?<variable>;))))
这种写法跟上面那一种写法有什么不一样呢?对于
public int aaaaaaaaaaaaaa;
这一个句子,前面的正则表达式需要尝试function这一组的匹配,在分号位置匹配失败之后退到匹配的开始位置。然后再尝试匹配property这一组,在同一个位置匹配失败,然后回溯到起点,最后才成功匹配variable这一组。换句话说,对于这句话来说,几乎每一个字符都被比较和匹配了三次。如果问题更复杂一点,这样的写法可能就会存在多个地方需要回溯匹配,效率就更低下了。而后面一种写法,在每个地方都是确定的,如果不能够匹配的话,整个匹配就必然失败,而完全不需要回溯。
注意上面所有A|B的关系的地方都会用(?>A|B)的形式来指定,如果匹配成功了,就不会再回溯到原来的地方尝试另外一种可能。在正则表达式里面,总是会尝试最大匹配,如果不使用(?>A|B)的形式的话。这是什么意思呢?
留给大家思考吧。