p103-
软件开发规范
re模块(regex正则表达式)
- 模块和实际工作之间的关系
- 正则表达式是爬虫基础,自动化运维,开发方向基础
- re模块可以让你在python中更方便使用正则表达式
正则表达式
-
工具网站http://tool.chinaz.com/regex
-
[]中括号只表示1个字符位置,[A-Za-z0-9]可以表示所有字母和数字,只匹配1个,根据ASCII值从小到大
-
[0-9][0-9][0-9][0-9] 可以匹配4个连续数字
-
\d 匹配所有单个数字(digit)
-
\w 匹配所有的单个字母、数字、下划线 (word)
-
\n 匹配回车
-
\t 匹配tab
-
\s 匹配所有空格
-
\t \s \n []等都是元字符
-
\W 匹配非数字、字母、下划线
-
\D 非数字
-
\S 非空白
-
[\d\D] 匹配所有, [\w\W] 也匹配所有 [\s\S] 也是,可以用一个点来替换 . 但是点不能匹配换行符 \n
-
[^] 匹配所有
-
^ 匹配一个字符串的开始 $ 匹配一个字符串的结尾
-
^5.$ 可以匹配 51 ,52,5! ,5* 等 2个字节的字符串
-
| 或者 a表达式|b表达式 会匹配其中1个,如果前面成功 就不会匹配后面,如果有重叠,可以把长的放前面
-
() 分组,可以在括号范围内先匹配
量词(单独不能用)只能约束前面的一个字符内容
- {2} 匹配2次
- {2,} 匹配 至少2次
- {2,4} 匹配 至少2次 最多4次
- ? 表示最少0个,最多1个
- + 表示1次或多次
- * 表示0次或多次