正则表达式

前言

我需要处理数据库里面的一些文本数据,用replace这些很难受,所以使用正则,但是正则看了看,还不能写出所有的想要的,故,记录一些处理的正则,我是使用Python的,真的,以前听说人生苦短,我用Python.现在用了Python之后我才真的有感触,人生苦短,我用Python.

正则表达式例子

去掉某个标签的内容,包括文本

    # 先去掉scripts标签
    dr = re.compile(r'<script[^>]*>(.|\n)*</script>',re.S)
    Description = dr.sub('',Description)

去掉所有的属性

html文本里面的class,href这些属性是不需要的,所以可以全部去掉,我不知道怎么省略,所以加了一个?:vae

意思是vae属性不过滤,其他的都过滤

    p=re.compile(r'\b(?!(?:vae))\w+=(["\']).+?\1', re.I)
    Description = p.sub('',Description)

去掉所有的HTML标签,除了ul,li,p

    dr = re.compile(r'<(?!li|/li|p|/p|ul|/ul)[^>)]+>',re.S)
    Description = dr.sub('',Description)
posted @ 2020-03-25 10:46  蜀云泉  阅读(292)  评论(0编辑  收藏  举报