网络爬虫的正则表达式

0x00 re正则表达式

 


 

正则表达式:

 

  • 通用字符串表达的框架
  • 简洁表达一组字符串的表达式
  • 针对字符串表达“简洁”和“特征”思想的工具

 

正则表达式在文本处理中的作用:

  • 表达文本类型
  • 同时查找和替换一组字符串
  • 匹配字符串的全部或部分

 

正则表达式常用操作符:

 

正则表达式语法实例:

 

 

经典的正则表达式实例:

 

实例:匹配IP地址的正则表达式

IP地址字符串形式的正则表达式

(IP地址分四段,每段范围0-255)

                    精确写法

                    0-99 : [1-9]?\d                   100-199: 1\d{2}

                    200-249:2[0-4]\d               250-255: 25[0-5]

                    完整表达形式:

                    (([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5]).){3}([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5])

 

0x01  re库的使用

 


re库的主要函数功能:

 

re库的另一种等价用法

 

re库的match对象

match对象的属性

 

match对象的方法

 

re库默认使用贪婪匹配,即输出匹配的最长字符串,如

 

为了实现最小匹配,修改代码

 

最小匹配操作符

 

posted @ 2019-01-10 19:54  Ragd0ll  阅读(499)  评论(0编辑  收藏  举报