随笔分类 -  正则

摘要:前言 在爬爬爬的时候,有些网页的数据并不存在于html中,它们常出现在scrip标签或js文件里面,所有这时候使用xpath就有些不尽人意了。但是,我们可以直接使用re对script的内容进行提取,然后再转json格式,再通过字典索引的方法对数据逐个提取。但是,面对近百万字符的文本,正则的运行速度堪 阅读全文
posted @ 2023-03-06 08:15 Rev_RoastDuck 阅读(81) 评论(0) 推荐(0) 编辑
摘要:目录 - - - # value1|value2 作用: 类似于"或",优先查找value1 ```python ''' :param value:正则需要匹配的值 ''' obj = re.findall("abc|dde","abcdde")#['abc', 'dde'] obj = re.fi 阅读全文
posted @ 2023-01-31 11:13 Rev_RoastDuck 阅读(37) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示