Python中使用正则表达式获取两个字符中间部分

问题背景：当我们爬取网页信息时，对于一些标签的提取是没有意义的，所以需要提取标签中间的信息。

解决办法：用到了re包下的函数

方法1：用到了research()方法和group()方法

方法2：用到了findall（）方法

具体实现：

import re
# 匹配两个字符中间的所有字符
a = '<p>life is short, i use python<a/>i love it<p>'

r = re.search('<p>(.*)<a/>(.*)<p>', a)

# python中正则匹配，如果不加（）,默认是一个分组，group（）中的参数，如果是0，默认是所有组，即返回整个字符串
# 如果是要访问自定义的组的元素，则需要从1开始

print(r.group(0))  # <p>life is short, i use python<a/>i love it<p>
print(r.group(1))  # life is short, i use python
print(r.group(2))  # i love it

# 用一个元组来返回所有组中的内容
print(r.group(0, 1, 2))
# ('<p>life is short, i use python<a/>i love it<p>', 'life is short, i use python', 'i love it')

# 返回所有元组的信息，不包括第0组
print(r.groups())  # ('life is short, i use python', 'i love it')

# 另一种匹配方式：使用findall（）
b = re.findall('<p>(.*)<a/>(.*)<p>', a)
print(b)  # [('life is short, i use python', 'i love it')]

像边界字符集（^,$等）或者概括字符集（\d,\D,\w等）匹配的都是一个字符，我们需要匹配一个连续的字符串时，会需要有组的概念，一个组中的元素是且的关系；例如：匹配Python字符串时，需要如下处理：（）表示的组的概念，不可将（）和[]混淆

import re

a = 'PythonPythonPythonPython'
# ()表示且的关系，[]表示或的关系

r = re.findall('(Python){3}', a)
print(r)

posted @ 2020-04-01 14:12 做个读书人阅读(16737) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

昵称：做个读书人
园龄： 7年6个月
粉丝： 14
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

做个读书人

计算机科学领域的任何问题都可以通过增加一个间接的中间层来解决!

Python中使用正则表达式获取两个字符中间部分

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论