正则表达式的学习

正则表达式

  概念:正则表达式英语:Regular Expression,在代码中常简写为regex、regexp或RE),又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法,是计算机将科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。

 理论: 

         正则表达式可以用形式化语言理论的方式来表达。正则表达式由常量和算子组成,它们分别表示字符串的集合和在这些集合上的运算。给定有限字母表Σ定义了下列常量:

  • 空集{\displaystyle \varnothing }\varnothing 表示集合{\displaystyle \varnothing }\varnothing
  • 空串{\displaystyle \varepsilon }\varepsilon 表示集合{\displaystyle \{\varepsilon \}}{\displaystyle \{\varepsilon \}}
  • 文字字符在{\displaystyle \Sigma }\Sigma 中的{\displaystyle a}a表示集合{\displaystyle \{a\}}\{a\}

定义了下列运算:

  • 串接{\displaystyle RS}{\displaystyle RS}表示集合{\displaystyle \{\alpha \beta \mid \alpha \in R,\beta \in S\}}{\displaystyle \{\alpha \beta \mid \alpha \in R,\beta \in S\}}。例如:{\displaystyle \{ab,c\}\{d,ef\}=\{abd,abef,cd,cef\}}{\displaystyle \{ab,c\}\{d,ef\}=\{abd,abef,cd,cef\}}
  • 选择{\displaystyle R|S}{\displaystyle R|S}表示{\displaystyle R}R{\displaystyle S}S并集。例如:{\displaystyle \{ab,c\}|\{ab,d,ef\}=\{ab,c,d,ef\}}{\displaystyle \{ab,c\}|\{ab,d,ef\}=\{ab,c,d,ef\}}
  • Kleene星号{\displaystyle R^{*}}R^*表示包含{\displaystyle \varepsilon }\varepsilon 并且闭合在字符串串接下的{\displaystyle R}R的最小子集。这是可以通过{\displaystyle R}R中的零或多个字符串的串接得到所有字符串的集合。例如:{\displaystyle \{ab,c\}^{*}=\{\varepsilon ,ab,c,abab,abc,cab,cc,ababab,\cdots \}}{\displaystyle \{ab,c\}^{*}=\{\varepsilon ,ab,c,abab,abc,cab,cc,ababab,\cdots \}}

 

 

posted @ 2019-03-24 22:10  如风儿回头  阅读(172)  评论(0编辑  收藏  举报