python正则中的贪婪与非贪婪

当重复一个正则表达式时，如用 a*，操作结果是尽可能多地匹配模式。当你试着匹配一对对称的定界符，如 HTML 标志中的尖括号。匹配单个 HTML 标志的模式不能正常工作，因为 .* 的本质是“贪婪”的

>>> s = '<html><head><title>Title</title>'
>>> len(s)
32
>>> print re.match('<.*>', s).span()
(0, 32)
>>> print re.match('<.*>', s).group()
<html><head><title>Title</title>
RE 在 "<html>" 中匹配 "<"，.* 会消耗掉字符串的剩余部分。RE 中保持更多的向左匹配，不能在字符串结尾匹配“>”，因此正则表达式必须一个字符一个字符地回溯，直到它找到 > 的匹配。最终的匹配从 "<html" 中的 "<" 到 "</title>" 中的 ">",这变成了全文匹配，并不是你想要的结果。

在这种情况下，解决方案是使用不贪婪的限定符 *?、+?、?? 或 {m,n}?，尽可能匹配小的文本。在上面的例子里，在第一个 "<" 之后立即尝试匹配 ">"，当它失败时，引擎一次增加一个字符，并在每步重试匹配">"。这个处理将得到正确的结果：

>>> print re.match('<.*?>', s).group()
<html>

注意一下比较：

>>> re.findall(r"a(\d+?)", "a23b")
['2']
>>> re.findall(r"a(\d+)", "a23b")
['23']

---------------比较一下两者的不同------------------------

>>> re.findall(r"a(\d+)b", "a23b")
['23']
>>> re.findall(r"a(\d+?)b", "a23b")
['23']

有时使用贪婪模式匹配网页代码时，会出现卡机情况，比如用这个语句：

sty_scr_tag = re.compile('(<style.*?[^>]*>.*?([\S\s]+)<\/style>)|(<script.*?[^>]*>.*?<\/script>)|(<script.*?[^>]*>.*?([\S\s]+?)<\/script>)',re.M)
content = sty_scr_tag.sub('', content)

去匹配baike.baidu.com这个网页，你会发现编译器一直卡在那里不会动，但当语句变成这个：

sty_scr_tag = re.compile('(<style.*?[^>]*>.*?<\/style>)|(<script.*?[^>]*>.*?<\/script>)|(<script.*?[^>]*>.*?([\S\s]+?)<\/script>)',re.M)
content = sty_scr_tag.sub('', content)

时，就可以了

posted @ 2012-09-28 10:29 网恋被骗5元阅读(19362) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 本地部署 DeepSeek：小白也能轻松搞定！
· 如何给本地部署的DeepSeek投喂数据，让他更懂你
· 在缓慢中沉淀，在挑战中重生！2024个人总结！
· 从 Windows Forms 到微服务的经验教训
· 李飞飞的50美金比肩DeepSeek把CEO忽悠瘸了，倒霉的却是程序员

公告

你看那颗黄果树。

昵称：网恋被骗5元
园龄： 13年10个月
粉丝： 44
关注： 16

+加关注

2012年9月

日

一

二

三

四

五

六

网恋被骗5元

网恋被骗5元

python正则中的贪婪与非贪婪

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论