正则表达式
前言
我需要处理数据库里面的一些文本数据,用replace这些很难受,所以使用正则,但是正则看了看,还不能写出所有的想要的,故,记录一些处理的正则,我是使用Python的,真的,以前听说人生苦短,我用Python.现在用了Python之后我才真的有感触,人生苦短,我用Python.
正则表达式例子
去掉某个标签的内容,包括文本
# 先去掉scripts标签
dr = re.compile(r'<script[^>]*>(.|\n)*</script>',re.S)
Description = dr.sub('',Description)
去掉所有的属性
html文本里面的class,href这些属性是不需要的,所以可以全部去掉,我不知道怎么省略,所以加了一个?:vae
意思是vae属性不过滤,其他的都过滤
p=re.compile(r'\b(?!(?:vae))\w+=(["\']).+?\1', re.I)
Description = p.sub('',Description)
去掉所有的HTML标签,除了ul,li,p
dr = re.compile(r'<(?!li|/li|p|/p|ul|/ul)[^>)]+>',re.S)
Description = dr.sub('',Description)