随笔分类 - 正则表达式
摘要:1、extract() # 对每个元素调用 re.match(), 返回匹配的字符串组 示例: 提取其中的汉字 df_p['支付单位'].str.extract('(\w+)\(', expand=False).head() 2、contains() # 对每个元素调用 re.search(), 返
阅读全文
摘要:用 '[\u4e00-\u9fa5]' 匹配中文 在字符串中匹配中文 示例: 匹配字符串中的第一个中文字符 匹配字符串中的第一个连续的中文片段 匹配字符串中的所有中文字符 注:要确保正则字符和匹配文本是 unicode 范围内的编码。 应用 其他 扩充 范围 (转) 几个主要非英文语系字符范围: 2
阅读全文
摘要:示例 1 import re s = "过儿的姑姑是谁?" regex = re.compile(r''' (\S[^的]*)的 # 任意(包含 0)个不包含 ‘的’ 字的非空白字符,group1 + ‘的’。 (\S[^是]*)是 # 任意(包含 0)个不包含 ‘是’ 字的非空白字符,group2
阅读全文