Linux shell 正则表达式用法

1、“ \ ” 用法

用于关闭其后续字符的特殊含义，恢复字符的本身含义，如：\\ 表示字符 \

2、 “ . " 用法

匹配任意单个字符

3、 " * " 用法

匹配任意字符，可以是单个，也可以是多个，和 ”.“ 字符的去吧是是否可以匹配多个任意字符

4、 "^" 的用法

在行的起始处开始匹配紧接着的字符，如 ^6,匹配行的首字符为6的行。

5、" $ " 的用法

和 “^” 用法相似，表示在行的结尾处开始匹配字符，如 6$,匹配行的结尾字符为6的行。

6 、" [ ] " 的用法

匹配某个范围内的字符方括号表达式，匹配其内部任何字符。其中-表示连续字符的范围，^符号置于方括号里第一个字符则有反向的含义，即匹配不在列表内(方括号)的任何字符。如果想让]和-表示其原意，需要将其放置在方括号的首字符位置，如[]ab]或[-ab]，如这两个字符同时存在，则将]放置在首字符位置，-放置在最尾部，如[]ab-]。

如[a-bA-Z0-9!]表示所有的大小写字母，数字和感叹号。[^abc]表示a、b、c之外的所有字符。[Tt]om，可以匹配Tom和tom。 []-] 匹配字符中存储 ] 或- 的所有字符。

7、 " \{n,m\} " 用法

区间表达式，用于匹配它前面的单个字符重复出现的次数的区间，如\{n\}表示重复n次，\{n,\}表示至少重复n次；\{n,m\}表示重复n到m次。

如：grep 'ab\{2,4\}' * 可以过滤出 abb、abbb和abbbb ；grep 'ab\{2\}' * 可以过滤出 abb、abbb和abbbb

8、 " $...$ " 用法

圆括号之间的模式存储在特殊“保留空间”。最多可以将9个独立的子模式存储在单个模式中。匹配于子模式的文本，可以通过转义序列\1到\9，被重复使用在相同模式里。

如： $ab$.*\1表示ab组合出现两次，两次之间可存在任何数目的任何字符，如abcdab、abab等，其中 \1 表示匹配 ab

9、 “\b” 的用法

代表着单词的开头或结尾，也就是单词的分界处，如 grep 'he' * 可能会痴线 leh hehe ，但是grep '\bhe\b' * 只会出现单字符 “he”

转：

假如你要找的是hi后面不远处跟着一个Lucy，你应该用\bhi\b.*\bLucy\b。

这里，.是另一个元字符，匹配除了换行符以外的任意字符。*同样是元字符，不过它代表的不是字符，也不是位置，而是数量——它指定*前边的内容可以连续重复使用任意次以使整个表达式得到匹配。因此，.*连在一起就意味着任意数量的不包含换行的字符。现在\bhi\b.*\bLucy\b的意思就很明显了：先是一个单词hi,然后是任意个任意字符(但不能是换行)，最后是Lucy这个单词。

10、" \d " 的用法

用来匹配任意一位数字

0\d\d-\d\d\d\d\d\d\d\d匹配这样的字符串：以0开头，然后是两个数字，然后是一个连字号“-”，最后是8个数字(也就是中国的电话号码。当然，这个例子只能匹配区号为3位的情形)。

这里的\d是个新的元字符，匹配一位数字(0，或1，或2，或……)。-不是元字符，只匹配它本身——连字符(或者减号，或者中横线，或者随你怎么称呼它)。

为了避免那么多烦人的重复，我们也可以这样写这个表达式：0\d{2}-\d{8}。这里\d后面的{2}({8})的意思是前面\d必须连续重复匹配2次(8次)。

11、 “\s” 的用法

匹配任意的空白符，包括空格，制表符(Tab)，换行符，中文全角空格

12、 “\w” 的用法

匹配字母或数字或下划线或汉字

以下转自（正则表达式30分钟入门教程：http://deerchao.net/tutorials/regex/regex.htm）

\ba\w*\b匹配以字母a开头的单词——先是某个单词开始处(\b)，然后是字母a,然后是任意数量的字母或数字(\w*)，最后是单词结束处(\b)。

好吧，现在我们说说正则表达式里的单词是什么意思吧：就是不少于一个的连续的\w。不错，这与学习英文时要背的成千上万个同名的东西的确关系不大 :)

\d+匹配1个或更多连续的数字。这里的+是和*类似的元字符，不同的是*匹配重复任意次(可能是0次)，而+则匹配重复1次或更多次。

\b\w{6}\b 匹配刚好6个字符的单词。

^\d{5,12}$ 这里的{5,12}和前面介绍过的{2}是类似的，只不过{2}匹配只能不多不少重复2次，{5,12}则是重复的次数不能少于5次，不能多于12次，否则都不匹配。

因为使用了^和$，所以输入的整个字符串都要用来和\d{5,12}来匹配，也就是说整个输入必须是5到12个数字，因此如果输入的QQ号能匹配这个正则表达式的话，那就符合要求了。

和忽略大小写的选项类似，有些正则表达式处理工具还有一个处理多行的选项。如果选中了这个选项，^和$的意义就变成了匹配行的开始处和结束处。

13、反义代码

代码/语法	说明
\W	匹配任意不是字母，数字，下划线，汉字的字符
\S	匹配任意不是空白符的字符
\D	匹配任意非数字的字符
\B	匹配不是单词开头或结束的位置
[^x]	匹配除了x以外的任意字符
[^aeiou]	匹配除了aeiou这几个字母以外的任意字符

当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符。以这个表达式为例：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。

有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧：

a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab（第一到第三个字符）和ab（第四到第五个字符）。

表5.懒惰限定符
代码/语法	说明
*?	重复任意次，但尽可能少重复
+?	重复1次或更多次，但尽可能少重复
??	重复0次或1次，但尽可能少重复
{n,m}?	重复n到m次，但尽可能少重复
{n,}?	重复n次以上，但尽可能少重复

posted @ 2014-07-30 10:18 BorD的选择阅读(970) 评论(0) 收藏举报

刷新页面返回顶部

BorD的选择

Linux shell 正则表达式用法

公告