[AaronYang]那天有个小孩跟我说Js正则
按照自己的思路学习Node.Js 随心出发。突破正则冷门知识点,巧妙复习正则常用知识点
标签:AaronYang 茗洋 Node.Js 正则 Javascript
本篇博客地址:http://www.cnblogs.com/AaronYang/p/3979710.html
开发准备(AaronYang原味)(看完加20分)
1你需要有个带开发者工具的浏览器,我这里用chrome浏览器
2基础回顾,比较简洁
var hello="hello world"; var reg=/hello world/; alert(reg.test(hello)) //输出 true
var reg=/\bhello world\b/;
第二个正则-----复习正则基本格式
学会 斜杠类字符(\w \d .) 寓意 加 特殊字符( * + ? {明确数字}) 加 正则外的额外说明(g i) 加 正则的额外切割整体和部分的字符(^$ 还有 ()括弧 | )
1. \w 字母或数字或下划线或汉字,记忆技巧 网站用户名注册可以中文
\d 数字,这个太好记了,因为常用
. 换行符以外的任意字符
\s 任意空白符,记忆技巧s是space的缩写,space是键盘上的空格键,空白的
跟\d 相反匹配的 \D ,\W,\S \B 等 。例如\d表示匹配数字,\D就是所有非数字以外的字符
\d -> [0-9]
\D -> [^0-9]
\w -> [a-zA-Z0-9_]
\W ->[^a-zA-Z0-9]
2. 有的 字符 比如 . 号,他不带斜杠,表示正则匹配符号,如果你想匹配 .net 这个字符,你就用 \. 来替代 点号。 斜杠是转义字符,如果你匹配的字符是正则已经预定义好的,你就要用斜杠来转义了
3. 对字符的附加说明
例如 \d+ 这里的+号表示 1个以上,\d表示数字,整句话的意思就是 1个以上的数字,加号等同于 {1,} 所以正则也可以这样写 \d{1,}
? 表示 0个或者1个 *号表示 0个或者很多个
接下来就是花括号类型的 说明 {1} 表示 1个
{1,}表示不少于1个
{1,10}表示 不少于1个,不超过10个
4. /g 表示该表达式将用来在输入字符串中查找所有可能的匹配,返回的结果可以是多个。如果不加/g最多只会匹配一个
/i 表示匹配的时候不区分大小写
/m 表示多行匹配,什么是多行匹配呢?就是匹配换行符两端的潜在匹配。影响正则中的^$符号,有的字符串含有\n也就是多行
5. 其他的
[输入任意字符] 例如 11[029] 表示 匹配110,112,119的字符
[a-z0-9A-Z_] 跟 \w有点像(不考虑中文)
[^123]表示匹配除了1,2,3这3个字符以外的任意字符
.* 表示匹配 任意数量的不包含换行的字符
6. 使用子匹配
可以使用( )进行字匹配
var osVersion = "Ubuntu 8";//其中的8表示系统主版本号 re=/^[a-z]+\s+(\d+)$/i;//用()来创建子匹配 arr =re.exec(osVersion); alert(arr[0]);//整个osVersion,也就是正则表达式的完整匹配 alert(arr[1]);//8,第一个子匹配,事实也可以这样取出主版本号 alert(arr.length);//2
如果把字符也括起来,则又是一组
7. 反向引用
反向引用标识由正则表达式中的匹配组捕获的子字符串。每个反向引用都由一个编号或名称来标识,并通过“\编号”表示法进行引用。
var color = "#990000"; /#(\d+)/.test(color); alert(RegExp.$1);//990000
alert(/(ay)\1/.test("ayay"))//true
re = /(\d+)\s(\d+)/; str = "1234 5678"; alert(str.replace(re,"$2 $1"));//在这个里面$1表示第一个分组1234,$2则表示5678 alert(RegExp.$2)
中级正则 学习(看完加30分)
1零宽断言 (匹配但是不捕获,不捕获就是不返回值)
2贪婪和惰性,贪婪长,懒惰多
*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复。
例子:
比如 ay2013ay2014ay2012ay2014
第一个是贪婪模式,从左往右,以20开始,找4结尾,取最长的一个字符串
第二个是懒惰模式,从左往右,以20开始,找最近的4,组成一个值,然后继续找,组成其他值,最后数组返回
看replace方法,都是先match值,然后替换的
3注释(知道就好)
Regex regex = new Regex(@"\ba\w{6}\b", RegexOptions.IgnoreCase); 主要在RegexOptions中 RegexOptions.IgnorePatternWhitespace,忽略表达式中的非转义空白并启用由#标记的注释
例如:
高级正则 学习(看完加30分)
1递归组,平衡匹配,这个有点拗口,主要是分组吧
<div[^>]*>[^<>]*(((?'Open'<div[^>]*>)[^<>]*)+((?'-Open'</div>)[^<>]*)+)*(?(Open)(?!))</div>
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Text.RegularExpressions; namespace RegMy { class Program { static void Main(string[] args) { Regex reg = new Regex("(?<=<a\\s*.*href=\")[^\"]*(?=\")", RegexOptions.IgnoreCase); string text = "<a href=\"http://www.baidu.com/p/yangyanghaoran?from=zhidao\" class=\"user-name\" target=\"_blank\" id=\"user-name\">yangyanghaoran<i class=\"i-arrow-down\"></i></a><a href=\"333.html\"></a>"; Match m = reg.Match(text); while (m.Success) { //显示匹配开始处的索引值和匹配到的值 Console.WriteLine("Match=[" + m + "]"); CaptureCollection cc = m.Captures; foreach (Capture c in cc) { Console.WriteLine("\tCapture=[" + c + "]"); } for (int i = 0; i < m.Groups.Count; i++) { Group group = m.Groups[i]; System.Console.WriteLine("\t\tGroups[{0}]=[{1}]", i, group); for (int j = 0; j < group.Captures.Count; j++) { Capture capture = group.Captures[j]; Console.WriteLine("\t\t\tCaptures[{0}]=[{1}]", j, capture); } } //进行下一次匹配. m = m.NextMatch(); } Console.ReadLine(); } } }
效果图:
这一块跟js的正则有点偏了,这里感兴趣的自己百度学习吧
=====================================================================================
备注:
正则表达式对象的方法
test,返回一个 Boolean 值,它指出在被查找的字符串中是否存在模式。如果存在则返回 true,否则就返回 false。
exec,用正则表达式模式在字符串中运行查找,并返回包含该查找结果的一个数组。
compile,把正则表达式编译为内部格式,从而执行得更快。
match,找到一个或多个正则表达式的匹配。
replace,替换与正则表达式匹配的子串。
search,检索与正则表达式相匹配的值。
split,把字符串分割为字符串数组。
正则表达式对象的属性
source,返回正则表达式模式的文本的复本。只读。
lastIndex,返回字符位置,它是被查找字符串中下一次成功匹配的开始位置。
$1...$9,返回九个在模式匹配期间找到的、最近保存的部分。只读。
input ($_),返回执行规范表述查找的字符串。只读。
lastMatch ($&),返回任何正则表达式搜索过程中的最后匹配的字符。只读。
lastParen ($+),如果有的话,返回任何正则表达式查找过程中最后括的子匹配。只读。
leftContext ($`),返回被查找的字符串中从字符串开始位置到最后匹配之前的位置之间的字符。只读。
rightContext ($'),返回被搜索的字符串中从最后一个匹配位置开始到字符串结尾之间的字符。只读。