正则表达式
笔者在平时经常用到正则表达式,无论是在处理文本还是在编程时,正则表达式大大提高了工作效率。
本文旨在介绍正则表达式最最基础的部分便于不知道的读者对正则表达式产生一个概念,科普一下(不一定能入门)。
什么是正则表达式?
正则表达式,就是用来描述一个字符串结构的方法,和我们使用的通配符比较类似,但是又不一样,可以说更强大。正则表达式主要用来在字符串中搜索、替换、定位文本。
正则表达式可以干什么?
前面提到正则表达式能用来搜索和替换,我们就想到了文本编辑器。确实,目前很多文本编辑器都集成了正则表达式搜索匹配和替换的功能,比如常用的Notepad++
<ignore_js_op>
有了正则表达式,我们可以很方便地实现一些功能,比如我们有一个txt文件
<ignore_js_op>
我们想把空格分隔变成逗号分隔,有同学说,直接将空格替换成逗号就可以了,但是试过之后,结果如下:
<ignore_js_op>
但是使用正则表达式进行替换,结果才是我们想要的:
<ignore_js_op>
Notepad++有个RegEx Helper插件可以帮助我们学习正则表达式。
我们经常使用的Windows搜索工具everything(在Search -> Enable Regex),以及Linux的grep工具都支持正则表达式
在Everything中搜索文件名”包含a并接着两个数字的”文件:
<ignore_js_op>
使用grep过滤文件名结尾为一个数字的文件:
<ignore_js_op>
另外,很多编程语言都支持正则表达式,比如Java,C#,Python,Perl之类的,尤其是Perl,已经将其集成到语法里面。我们可以在编程语言中很方便的用它来处理文本,比如检查email或者手机号格式,在抓取的网页中匹配需要的数据等等。
正则表达式有哪些内容?
学习正则表达式主要需要掌握以下几个概念(不一定全):
元字符
字符转义
锚点
零宽断言
反向引用
选项
这里简单讲一下元字符,其他读者自己有兴趣再自己去学习。
字符串的开始可以用^指定,结束用$,所以匹配全数字的字符串可以用^[0-9]$,其中中括号表示是其中一个,0-9是0123456789的简写,也可以写成\d,不过可能有些地方不支持。
常用的特殊代码
|
|
代码/语法
|
说明
|
.
|
匹配除换行符以外的任意字符
|
\w
|
匹配字母或数字
|
\s
|
匹配任意的空白符
|
\d
|
匹配数字
|
\b
|
匹配单词的开始或结束
|
^
|
匹配字符串的开始
|
$
|
匹配字符串的结束
|
按照上面的表格,如果我们需要匹配一个全数字的单词,可以用\b\d+\b
<ignore_js_op>
一些复杂的正则表达式(网上抄来的,可以借鉴一下)
匹配首尾空白字符的正则表达式:^\s*|\s*$
评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式
匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
评注:表单验证时很实用
匹配网址URL的正则表达式:[a-zA-z]+://[^\s]*
评注:网上流传的版本功能很有限,上面这个基本可以满足需求
匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
评注:表单验证时很实用
匹配国内电话号码:\d{3}-\d{8}|\d{4}-\d{7}
评注:匹配形式如 0511-4405222 或 021-87888822
匹配腾讯QQ号:[1-9][0-9]{4,}
评注:腾讯QQ号从10000开始
匹配中国邮政编码:[1-9]\d{5}(?!\d)
评注:中国邮政编码为6位数字
匹配身份证:\d{15}|\d{18}
评注:中国的身份证为15位或18位
匹配ip地址:\d+\.\d+\.\d+\.\d+
评注:提取ip地址时有用
附一张博主前一段时间用Perl正则表达式自动格式化Verilog代码的截图
<ignore_js_op>
如何进一步学习?
《正则表达式之道》
《Mastering Regular Expressions(精通正则表达式)》
积极乐观,好好coding