字符串与正则表达式

一.字符串

　　1.格式化浮点数字

　　　　'%f'%1.25 输出：1.250000（默认输出小数点后的6位数字）

　　　　'%.2f'%1.25 输出：1.25 (精确到小数点后两位)

　　2.字符串与日期的转换

　　　　例：

　　　　　　import time,datetime

　　　　　　time.strftime("%Y-%m-%d %X"，time.localtime())

　　　　　　t=time.strptime('2018-08-08','%Y-%m-%d')

　　　　　　y,m,d=t[0:3]

　3.正则表达式

　　3-1：特殊字符

　^:正则表达式的开始字符

　　$:正则表达式的结束字符

　　\w:匹配字母，数字，下划线

　　\W:匹配非字母，数字，下划线的字符

　　\s:匹配空白字符

　　\S:匹配非空白字符

　　\d:匹配数字

　　\D:匹配非数字的字符

　　\b:匹配单词的开始和结束

　　\B:匹配不是单词的开始和结束的位置

　　. :匹配任意字符，包括汉字

　　[m]:匹配单个字符串

　　[m1,m2]:匹配多个字符串

　　[m-n]:匹配m到n区间内的数字，字母

　　[^m]:匹配除m以外的字符串

　　():对正则表达式进行分组，一对圆括号表示一组

　　规则选项

　　I:忽略大小写

　　L：字符集本地化，用于多语言环境

　　M：多行匹配

　　S：是"."匹配"\n"在内的所有字符

　　X：忽略正则表达式中的空白，换行，方便添加注释

　　U： \w,\W,\B,\b,\d,\D,\s,\S都将使用unicode

　　3-2:常用限定符　

　　*:匹配0次或多次

　　+：匹配一次或多次

　　？：匹配一次或0次

　　{m}:重复m次

　　{m,n}:重复m到n次，其中n可以省略，表示m到任意次

　　限定符与？号的组合

　　*？：匹配0次或多次，且最短匹配

　　+？：匹配一次或多次，且最短匹配

　　？？：匹配一次或0次，且最短匹配

　　{m,n}：重复m次，且最短匹配

　　（?#...）：正则表达式中的注释

　　（?P<name>...）：给分组命名，name表示分组的名称

　　（?P=name）：使用名为name的分组

　　　　例：

　　　　[\(-]? :表示做多只能取"("或"-"其中一个

　　处理正则表达式的模块：re

　　re的常用函数：

　　findall(pattern，string，flags=0):根据pattern在string中匹配字符串

　　sub():根据指定的正则表达式，替换原字符串中的子串 (注：先创建s的拷贝，然后在拷贝中替换字符串，并不会改变s的内容)

　　subn():作用和sub相同，返回一个二元的元组

　　match(pattern,string,flags=0):根据pattern从string的头部开始匹配字符串，只返回第一次匹配成功的对象

　　search():根据pattern在string中匹配字符串，只返回第一次匹配成功的对象

　　compile():编译正则表达式pattern，返回1个Pattern对象

　　split():根据pattern分隔string,maxsplit表示最大的分隔数

　　escape():匹配字符串中的特殊字符，如*，+，？

　　例：

　　　　import re

　　　　s='HELLO WORLD'

　　　　re.findall(r'^hello',s) #结果为：[]

　　　　re.findall(r'^hello',s,re.I) #re.I表示忽略大小写

　　　　re.findall(r'\b\w+\b',s) #:结果为：['HELLO', 'WORLD']

　　　　替换指定字符串中的子串：

　　　　import re

　　　　s='hello world'

　　　　re.sub('hello','hi',s) #hi world

　　　　re.sub('hello','hi',s[-4:]) #因为没有找到匹配的子串，所有输出结果为s[-4:],即orld

　　　　tel3='(010)12345678'

　　　　print(re.findall(r'[$]?\d{3}[$-]?\d{8}|[$]?\d{4}[$-]?\d{7}',tel3))

　　　　正则表达式的解析非常费时，如果多次使用findall()的方式匹配字符串，搜索效率会很低，可以使用compile()进行预编译，该函数返回一个pattern对象

　　　　pattern对象的属性和方法如下：

　　　　pattern:获取当前使用的正则表达式

　　　　findall(string[,start[,end]]):查找所有符合pattern对象匹配条件的结果，返回一个包含匹配结果的列表。

　　　　finditer(string[,start[,end]]):返回一个包含匹配结果的地址

　　　　match():用法同re.match()

　　　　search():用法同re.search()

　　　　例：

　　　　　　import re

　　　　　　s='1abc23def45'

　　　　　　p=re.compile(r'\d+')

　　　　　　print(p.findall(s))

　　　　　　print(p.pattern)

　　　　函数compile()通常与match(),search(),group()一起使用，对含有分组的正则表达式进行解析。match()与search()将返回一个match()对象，

　　　　match()对象的方法和属性：

　　　　pos:搜索的开始位置

　　　　endpos:搜索的结束位置

　　　　string:搜索的字符串

　　　　re:当前使用的正则表达式的对象

　　　　lastindex:最后匹配的组索引

　　　　lastgroup:最后匹配的组名

　　　　group(index=0):某个分组的匹配结果，如果index等于0表示匹配整个正则表达式

　　　　groups():所有分组的匹配结果，每个分组的结果组成一个列表返回

　　　　groupdict():返回组名作为 key,每个分组的匹配结果作为value的字典

　　　　start([group]):获取组的开始位置

　　　　end([group]):获取组的结束位置

　　　　span([group]):获取组的开始和结束位置

　　　　expand(template):使用组的匹配结果来替换模板template中的内容，并把替换后的字符串返回

　　　　例：

　　　　　　import re

　　　　　　p=re.compile(r'(abc)\1')

　　m=p.match('abcabcabc')

　　　　　　print(m.group(0),m.group(1),m.group())

　　　　　　p=re.compile(r"(?P<one>abc)(?P=one)")

　　　　　　m=p.search("abcabcabc")　　　　

　　　　　　print(m.group("one"))

posted @ 2019-11-25 15:14 pple 阅读(2860) 评论(0) 收藏举报

刷新页面返回顶部

字符串与正则表达式

公告