python_基础学习_03_正则替换文本(re.sub)

python的正则表达式模块是re,替换相关的方法是sub。

例如我们要做如下的替换将所有的 替换为空格,可以通过下面代码实现:

import re

input = 'hello   world'

#第一个参数是正则表达式,第二个参数是要替换成的内容,第三个参数是替换原字符串
output = re.sub(' ', ' ',input)
print output

如果要做分组替换需要在替换的字符串中指定分组\1, 反斜杠+数字表示替换第n个分组

例如假定我要把abc此处在 之间的字符串需要保留。这样就需要分组替换了,正则表达式的内容是&nbsp([a-z0-9]*?);分组内容被用小括号括在了一起。

如下示例:

 

import re
input = 'hello  abc world'

#第一个参数是正则表达式,第二个参数是要替换成的内容,第三个参数是替换原字符串
output = re.sub('&nbsp([a-z0-9]*?);', '\\1 ',input)
print output

 

posted @ 2016-07-21 15:49  cphmvp  阅读(437)  评论(0编辑  收藏  举报
爬虫在线测试小工具: http://tool.haoshuju.cn/