网络爬虫的正则表达式
0x00 re正则表达式
正则表达式:
- 通用字符串表达的框架
- 简洁表达一组字符串的表达式
- 针对字符串表达“简洁”和“特征”思想的工具
正则表达式在文本处理中的作用:
- 表达文本类型
- 同时查找和替换一组字符串
- 匹配字符串的全部或部分
正则表达式常用操作符:
正则表达式语法实例:
经典的正则表达式实例:
实例:匹配IP地址的正则表达式
IP地址字符串形式的正则表达式
(IP地址分四段,每段范围0-255)
精确写法
0-99 : [1-9]?\d 100-199: 1\d{2}
200-249:2[0-4]\d 250-255: 25[0-5]
完整表达形式:
(([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5]).){3}([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5])
0x01 re库的使用
re库的主要函数功能:
re库的另一种等价用法
re库的match对象
match对象的属性
match对象的方法
re库默认使用贪婪匹配,即输出匹配的最长字符串,如
为了实现最小匹配,修改代码
最小匹配操作符