随笔分类 - 正则
摘要:前言 在爬爬爬的时候,有些网页的数据并不存在于html中,它们常出现在scrip标签或js文件里面,所有这时候使用xpath就有些不尽人意了。但是,我们可以直接使用re对script的内容进行提取,然后再转json格式,再通过字典索引的方法对数据逐个提取。但是,面对近百万字符的文本,正则的运行速度堪
阅读全文
摘要:目录 - - - # value1|value2 作用: 类似于"或",优先查找value1 ```python ''' :param value:正则需要匹配的值 ''' obj = re.findall("abc|dde","abcdde")#['abc', 'dde'] obj = re.fi
阅读全文