随笔分类 - 正则
摘要:一、非贪婪匹配 首先先看一个需求,我们的输入是一串数字字符串,我们需要做的是它最后面的所有0字符和0前面的子串提取出来,例如: "123000":"123"和"000" "110":"11"和"0" "1234":"1234"和"" 我们很自然地可以写出这样的表达式:^(\d*)(0*)$ 可是如果
阅读全文
摘要:1. 正则表达式语法 1.1 字符与字符类 1 特殊字符:.^$?+*{}| 以上特殊字符要想使用字面值,必须使用进行转义 2 字符类 1. 包含在[]中的一个或者多个字符被称为字符类,字符类在匹配时如果没有指定量词则只会匹配其中的一个。 2. 字符类内可以指定范围,比如[a-zA-Z0-9]表示a
阅读全文
摘要:https://mp.weixin.qq.com/s/6_coN4LozGnbsDNko-whRg 一、校验数字的表达式 数字:^[0-9]*$ n位的数字:^\d{n}$ 至少n位的数字:^\d{n,}$ m-n位的数字:^\d{m,n}$ 零和非零开头的数字:^(0|[1-9][0-9]*)$
阅读全文
摘要:1. 单个位置的字符串提取 这种情况我们可以使用(.+?)这个正则表达式来提取. 举例,一个字符串"a123b",如果我们想提取ab之间的值123,可以使用findall配合正则表达式,这样会返回一个包含所以符合情况的list,代码如下: import re str = "a123b" print
阅读全文
摘要:玩转正则表达式 本文中介绍的是主要是 3 个知识点: 正则表达式的相关知识 Python的中 re 模块,主要是用来处理正则表达式 一个利用 re 模块通过正则表达式来进行网页数据的爬取和存储 1、正则表达式 1.1 正则表达式及作用 正则表达式的英文是 regular expression,通常简
阅读全文
摘要:实例: 匹配标签 匹配title标签 匹配网页的 <title></title> 标签,也就是网页的标题。 .*? 就是匹配1个或多个字符,也就是这里不能是空的。当加入括号的话,就是代表取值了 (.*?) import re import requests resp=requests.get("ht
阅读全文
摘要:tags: #正则表达式 #HTML提取 匹配任意字符不能跨行:.* 匹配任意字符包括换行符等:[\s\S]* 捕获某前缀与某后缀之间的任意字符:(.*?) 使用情况举例,捕获下面HTML中的文字“不迟any” HTML:<a href='http://www.cnblogs.com/buchian
阅读全文
摘要:什么是正则表达式? 正则表达式(Regular Expression)通常被用来检索、替换那些符合某个模式(规则)的文本。 此处的Regular即是规则、规律的意思,Regular Expression即“描述某种规则的表达式”之意。 本文收集了一些常见的正则表达式用法,方便大家查询取用,并在最后附
阅读全文