神羽鸦青

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

工作中遇到个需求,要验证用户输入的字符串是否为数字或四则运算式,过程中遇上了几个坑,虽然最后也没能完全解决这个问题,不过总算是有了个能用的正则表达式。

^(\-?\d+[\.\+\-\*\/]?)*\-?\d+$

该正则表达式:

  • 可以匹配数字,正数负数小数皆可。
  • 可以匹配数字,小数点以及 + - * / 组成的四则运算。
  • 不支持优先级,即不支持括号 ()
  • 不支持带正号的正数出现在表达式开头,即不支持 +1 这种正数作为四则运算的开头。

不支持优先级这个问题比较难解决,因为正则表达式是有穷自动机,带优先级的四则运算是上下文无关语法,等价于非确定性下推自动机,正则表达式解决不了这个问题,外加个人能力限制,所以只能用在匹配时替换掉括号的临时方案代替。

正则表达式平衡组可以确定括号是否成对出现,使用此表达式即可 ^((?<open>\()|(?<-open>\))|[^()]+)*(?(open)(?!))$ 但是无法确定括号出现的位置。

不支持带正号的数字开头则是可以解决的,将开头第三个字起的 \-? 换成 [\+\-]? 即可。

构建过程

首先是 正整数匹配

正整数匹配是最简单的,\d可以匹配数字,正整数是1个或多个数字重复,用+匹配,可得:

\d+
然后是 增加负整数的匹配

负整数和正整数的区别就是负号,负号的出现的次数只会是负整数1次,正整数0次,用?匹配,可得:

\-?\d+
第三步 增加小数点的匹配

小数点也同样有两种情况,整数时出现0次,小数时出现1次,小数的小数点后跟数字重复1次或更多次,可得:

\-?\d+(\.\d+)?
第四步 增加四则运算的开头

四则混合运算,会有括号或数字开头两种情况,数字会有正负整数或小数开头的四种情况,但不考虑括号,并且已经在第三步得到了匹配任何数字的表达式的情况下,四则运算只会以数字开头,所以直接:

^\-?\d+(\.\d+)?
第五步 增加减乘除符号

加减乘除只会跟在数字后面,并且只会出现一次,可得:

^\-?d+(\.\d+)?[\+\-\*\/]
第六步 增加四则运算的结尾

不考虑括号的情况下,四则运算的结尾同开头,只会出现数字,所以:

^\-?d+(\.\d+)?[\+\-\*\/]\-?\d+(\.\d+)?$
第七步 增加四则运算的中间部分

第六步得到的正则表达式只能匹配两个数字之间的加减乘除,而四则运算是多个数字之间的加减乘除,这一步需要解决这个问题。

首先随手写出几个不带括号的四则运算式:

-10+5-3.6*4/8.5

8*1/4+-45+8*21

2--8*5.5/-7

分离开头的数字带符号,以及末尾的数字:

仔细观察可以得出以下规律:四则运算的中间部分,也是以数字后接运算符号的一个个节点组成的,如下:

中间的数字后接运算符号节点,可以用第五步的表达式,去掉匹配开头的 ^符号,即 \-?d+(\.\d+)?[+\-\*/] 来匹配,以为数字接符号节点,并且这个节点重复0次或任意次,可得:

^\-?d+(\.\d+)?[\+\-\*\/](\-?d+(\.\d+)?[\+\-\*\/])*\-?\d+(\.\d+)?$
第八步 优化重复部分

第七步中的表达式有明显重复的部分,作为程序员看到重复就会想到这部分可以优化一下,而 XX* 形式的正则表达式,在正则中可以用 X+ 来代替,可得:

^(\-?d+(\.\d+)?+[\+\-\*\/])+\-?\d+(\.\d+)?$

不过这个表达式,可以匹配四则运算表达式但不能匹配数字了,而这二者之间的区别,在于数字接符号的节点出现0次还是出现更多次,即正则符号的 * ,故只需要将数字接符号的节点后的 +,替换为 * 就可以了:

^(\-?d+(\.\d+)?[\+\-\*\/])*\-?\d+(\.\d+)?$
最后一步 优化小数点的部分

第八步中得到的表达式,已经可以作为匹配数字或四则运算的正则表达式了,不过在观察四则运算式的时候,我还发现,小数点,和加减乘除出现的地方其实是一致的,如下:

-10+    5- 3.    6*    -4/    8.    5

8*    1/    4+    -45+    8*    21

2-    -8* 5.    5/    -7

带或不带负号的数字,后接小数点或加减乘除,就组成了节点,节点重复任意次。

这样的话,将小数点视为加减乘除的同位,对表达式再次进行简化,可得:

^(\-?\d+[\.\+\-\*\/]?)*\-?\d+$

这样就得到开始的正则表达式了。

总结

没啥好总结的,不过这个过程真有趣。

总结记录一下,以后可能用的到。

以后也许会试试把括号的问题解决了。

补充:
正则表达式平衡组可以确定括号是否成对出现,使用此表达式即可 ^((?<open>\()|(?<-open>\))|[^()]+)*(?(open)(?!))$ 但是无法确定括号出现的位置。

posted on 2021-10-31 15:20  神羽鸦青  阅读(4264)  评论(0编辑  收藏  举报