SUMTEC -- There's a thing in my bloglet.

But it's not only one. It's many. It's the same as other things but it exactly likes nothing else...

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
  263 随笔 :: 19 文章 :: 3009 评论 :: 74万 阅读
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

假设只接受public/private两个修饰符,并且只接受void/bool/int三个返回类型,接受字段、属性和函数。函数不允许有参数,属性有get/set(为简单起见,先get后set),字段只能是bool/int两个类型(不允许初始化)。函数和属性的内容为空,只有一对花括号。那是不是应该这么写呢?
 
(?<function>(?<modifier>public|private)\s+(?<return_type>void|bool|int)\s+(?<function_name>\w+)\s*\(\s*\){\s*})|(?<property>(?<modifier>public|private)\s+(?<return_type>void|bool|int)\s+(?<property_name>\w+)\s*{\s*get\s*{\s*}\s*set\s*{\s*}\s*})|(?<variable>(?<modifier>public|private)\s+(?<variable_type>bool|int)\s+(?<variable_name>\w+)\s*;)

这么写是对的,但是效率方面却不是很好。对于这个简单的情况可能还是体现不出来,但是如果更加复杂的话,可能就会出现效率低下的问题了。我们应该怎么怎么改呢?

(?<define>(?<modifier>public|private)\s+(?>(?<type>void)\s+(?<name>\w+)\s*(?>(?<function>\(\s*\)\s*{\s*})|(?<property>{\s*get\s*{\s*}\s*set\s*{\s*}\s*}))|(?<type>bool|int)\s+(?<name>\w+)\s*(?>(?<function>\(\s*\)\s*{\s*})|(?<property>{\s*get\s*{\s*}\s*set\s*{\s*}\s*})|(?<variable>;))))

这种写法跟上面那一种写法有什么不一样呢?对于
public int aaaaaaaaaaaaaa;
这一个句子,前面的正则表达式需要尝试function这一组的匹配,在分号位置匹配失败之后退到匹配的开始位置。然后再尝试匹配property这一组,在同一个位置匹配失败,然后回溯到起点,最后才成功匹配variable这一组。换句话说,对于这句话来说,几乎每一个字符都被比较和匹配了三次。如果问题更复杂一点,这样的写法可能就会存在多个地方需要回溯匹配,效率就更低下了。而后面一种写法,在每个地方都是确定的,如果不能够匹配的话,整个匹配就必然失败,而完全不需要回溯。

注意上面所有A|B的关系的地方都会用(?>A|B)的形式来指定,如果匹配成功了,就不会再回溯到原来的地方尝试另外一种可能。在正则表达式里面,总是会尝试最大匹配,如果不使用(?>A|B)的形式的话。这是什么意思呢?

留给大家思考吧。

posted on   Sumtec  阅读(1816)  评论(2编辑  收藏  举报
编辑推荐:
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
阅读排行:
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· .NET周刊【3月第1期 2025-03-02】
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
点击右上角即可分享
微信分享提示