【NLP_Stanford课堂】正则表达式
- 或者
- [Ww]oods,方括号里的是或的关系,符合其一即被提出。用来匹配单个字符
- [A-Z]:表示所有的大写字母之一
- [a-z]:表示所有的小写字母之一
- [0-9]:表示所有的0-9的数字之一
- 否定:[^A-Z]表示不是任何大写字母,在开头否定方括号里的所有内容。
-
- [^e^]:表示不是e也不是^
- a^b:
- a|b,用|来表示或,不需要框起来,相当于[abc],可以是长单词 yours|mine
- [Ww]oods,方括号里的是或的关系,符合其一即被提出。用来匹配单个字符
- 匹配次数
- ?表示?前面的那个字符可以出现或者不出现
- *表示*前面的那个字符可以出现0次或者多次
- +表示+前面的那个字符可以出现1次或者多次
- .表示匹配任何一个单词都可以,但是只能出现一次
- {2,4}表示前面的那个字符可以出现2-4次
- 匹配字符串的开头和结尾,字符串是指输入的整个字符串
- 开头:^[A-Z]匹配以A-Z字母为开头的字符串
- 结尾:[A-Z]$匹配以A-Z字母为结尾的字符串
- 但是不知道为什么把整篇文章作为了一个字符串,导致匹配结果如下:
-