2.1使用多个界定符分隔字符串
问题
你需要将一个字符串分割为多个字段,但是分隔符(还有周围的空格)并不是固定的。
解决方案
string对象的split()方法只适用于非常简单的字符串分割情形,它并不允许有多个分隔符或者是分隔符周围不确定的的空格。当你需要添加更灵活的切割字符串的时候,最好使用re.split()方法:
import re
line = 'asdf fjdk; afed, fjek,asdf, foo'
res = re.split(r'[;,\s]\s*', line)
print(res) # ->['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']
讨论
函数re.split()是非常实用的,因为它允许你为分隔指定多个正则模式。比如,在上面的例子中,分隔符可以是逗号,分号或者是空格,并且后面紧跟着任意个的空格。只要这个模式被找到,那么匹配的分隔符两边的实体都会被当成事结果中的元素返回。返回结果为又给字段列表,这个跟str.split()返回值类型是一样的。
当你使用re.split()函数的时候,需要特别注意的是正则表达式中是否包含一个括号捕获分组。如果使用了捕获分组,那么被匹配的文本也将出现在结果列表中。比如,观察一下这段代码运行后的结果:
fields = re.split(r'(;|,|\s)\s*', line)
print(fields)
# ->['asdf', ' ', 'fjdk', ';', 'afed', ',', 'fjek', ',', 'asdf', ',', 'foo']
获取分隔字符在某些情况下也是有用的。比如,你可能想保留分隔符字符串,用来在后面重新构造一个新输出的字符串;
values=fields[::2]
delimiters=fields[1::2]+['']
print(values) # ->['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']
print(delimiters) # ->[' ', ';', ',', ',', ',', '']
print(''.join(v+d for v,d in zip(values,delimiters))) # ->asdf fjdk;afed,fjek,asdf,foo
如果你不想保留分隔字符串到结果列表中去,但仍然需要使用到括号来分组正则表达式的话,确保你的分组是非捕获分组,形如(?:....).比如:
print(re.split(r'(?:,|;|\s)\s*',line)) #->['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']
分类:
python3高级教程
标签:
python3高级教程学习
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构