python 正则表达式规则收集

python正则表达式基本元字符 

  1. .   通配符,匹配所有字符

  2. ^abc  匹配以abc开始的字符串

  3. abc$  匹配以abc结尾的字符串

  4. [abc]  匹配字符集合

  5. [A-Z0-9] 匹配字符范围

  6. ed|ing|s 匹配指定的字符串,诸如ed或者ing或者s

  7. *   前面项目0个或者多个,如a*/[a-z]* (也叫Kleene闭包)

  8. +   前面项目1个或者多个,如a+、[a-z]+

  9. ?   前面项目0个或者1个,如a?、[a-z]?

  10. {n}   重复n次

  11. {n,}  至少重复n次

  12. {,n}  重复不多于n次

  13. {m,n}  至少重复m次不多于n次

  14. a(b|c)+  括号表示操作符的范围

  15. 正则表达式符号:

  16. \b 词边界

  17. \d 任何数字等于[0-9]

  18. \D 任何非数字等于[^0-9]

  19. \s 任何空白字符[\t\n\r\f\v]

  20. \S 任何非空白字符[^\t\n\r\f\v]

  21. \w 任何字母[A-Za-z0-9]

  22. \W 任何非字母[^A-Za-z0-9]

  23. \t 制表符

  24. \n 换行符

 

 

相关正则知识:

  1. \d  匹配一个数字

  2. \w 匹配一个字母或者数字

  3. *  任意个字符(包括0个),

  4. +  至少一个字符

  5. ?  0个或1个字符

  6. {n} n个字符

  7. {n,m} n-m个字符

  8. \s 匹配一个空格

  9. \s+ 至少有一个空格

  10. \d{3,8} 表示3-8个数字,例如'1234567'

  11. \d{3}\s+\d{3,8}

  12. [0-9a-zA-Z\_] 匹配一个数字、字母或者下划线

  13. [0-9a-zA-Z\_]+ 匹配至少由一个数字、字母或者下划线组成的字符串,

  14. 比如'a100','0_Z','Py3000'等等;

  15. [a-zA-Z\_][0-9a-zA-Z\_]*可以匹配由字母或下划线开头,后接任意个由一个数字、字母或者下划线组成的字符串,也就是Python合法的变量

  16. [a-zA-Z\_][0-9a-zA-Z\_]{0, 19}更精确地限制了变量的长度是1-20个字符(前面1个字符+后面最多19个字符)

  17. A|B可以匹配A或B,所以(P|p)ython可以匹配'Python'或者'python'

  18. ^表示行的开头,^\d表示必须以数字开头

  19. \d

  1. 表示必须以数字结束

参考自:微信公众号,数据挖掘入门与实战

posted @ 2017-04-08 15:09  junjunang  阅读(3153)  评论(0编辑  收藏  举报