二 模块 logging json pickle re
1 logging 日志模块
1.1 函数式简单配置
import logging logging.debug('debug message') logging.info('info message') logging.warning('warning message') logging.error('error message') logging.critical('critical message')
默认情况下Python的logging模块将日志打印到了标准输出中,且只显示了大于等于WARNING级别的日志,这说明默认的日志级别设置为WARNING(日志级别等级CRITICAL > ERROR > WARNING > INFO > DEBUG),默认的日志格式为日志级别:Logger名称:用户输出消息。
灵活配置日志级别,日志格式,输出位置:
import logging logging.basicConfig(level=logging.DEBUG, format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s', datefmt='%a, %d %b %Y %H:%M:%S', filename='/tmp/test.log', filemode='w') logging.debug('debug message') logging.info('info message') logging.warning('warning message') logging.error('error message') logging.critical('critical message')
配置参数:
logging.basicConfig()函数中可通过具体参数来更改logging模块默认行为,可用参数有: filename:用指定的文件名创建FiledHandler,这样日志会被存储在指定的文件中。 filemode:文件打开方式,在指定了filename时使用这个参数,默认值为“a”还可指定为“w”。 format:指定handler使用的日志显示格式。 datefmt:指定日期时间格式。 level:设置rootlogger(后边会讲解具体概念)的日志级别 stream:用指定的stream创建StreamHandler。可以指定输出到sys.stderr,sys.stdout或者文件(f=open(‘test.log’,’w’)),默认为sys.stderr。若同时列出了filename和stream两个参数,则stream参数会被忽略。 format参数中可能用到的格式化串: %(name)s Logger的名字 %(levelno)s 数字形式的日志级别 %(levelname)s 文本形式的日志级别 %(pathname)s 调用日志输出函数的模块的完整路径名,可能没有 %(filename)s 调用日志输出函数的模块的文件名 %(module)s 调用日志输出函数的模块名 %(funcName)s 调用日志输出函数的函数名 %(lineno)d 调用日志输出函数的语句所在的代码行 %(created)f 当前时间,用UNIX标准的表示时间的浮 点数表示 %(relativeCreated)d 输出日志信息时的,自Logger创建以 来的毫秒数 %(asctime)s 字符串形式的当前时间。默认格式是 “2003-07-08 16:49:45,896”。逗号后面的是毫秒 %(thread)d 线程ID。可能没有 %(threadName)s 线程名。可能没有 %(process)d 进程ID。可能没有 %(message)s用户输出的消息
2.2 logger对象配置
import logging logger = logging.getLogger() # 创建一个handler,用于写入日志文件 fh = logging.FileHandler('test.log') # 再创建一个handler,用于输出到控制台 ch = logging.StreamHandler() formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s') fh.setFormatter(formatter) ch.setFormatter(formatter) logger.addHandler(fh) #logger对象可以添加多个fh和ch对象 logger.addHandler(ch) logger.debug('logger debug message') logger.info('logger info message') logger.warning('logger warning message') logger.error('logger error message') logger.critical('logger critical message')
logging库提供了多个组件:Logger、Handler、Filter、Formatter。Logger对象提供应用程序可直接使用的接口,Handler发送日志到适当的目的地,Filter提供了过滤日志信息的方法,Formatter指定日志显示格式。另外,可以通过:logger.setLevel(logging.Debug)设置级别。
#日志模块 #配置方式 1.config 2.logger #config import logging logging.basicConfig( level=logging.INFO, format="%(asctime)s [%(lineno)s] %(message)s %(module)s", datefmt="%Y-%m-%d %X", filename="logger.log", filemode="w", ) logging.debug("debug message") logging.info("info message") logging.warning("warning message") logging.error("error message") logging.critical("critical message") #logger # def logger(): # logger=logging.getLogger() # # fh=logging.FileHandler("logger2.log") # sh=logging.StreamHandler() # # Fm=logging.Formatter("%(asctime)s") # logger.setLevel(logging.DEBUG) # # logger.addHandler(fh) # logger.addHandler(sh) # # return logger # # logger=logger() # # logger.debug("debug message") # logger.info("info message") # logger.warning("warning message") # logger.error("error message") # logger.critical("critical message")
2 json /pickle序列化
#序列化:把一个数据类型的数据转化成一个json字符串类型的数据 dumps #反序列化:把一个josn字符串类型的数据转化成数据类型 loads import json d={"name":"egon","age":16} # #dumps方式 # s=json.dumps(d) # with open("new","w") as f: # f.write(s) # with open("new",) as f: # date=f.read() # s1=json.loads(date) #date是读取文件的内容 #dump 方式 # with open("new","w") as f: # json.dump(d,f) #多了一个文件句柄的参数,不需要在做写的操作 with open("new","r") as f: date=json.load(f) #不需要在做读的操作 print(date)
之前我们学习过用eval内置方法可以将一个字符串转成python对象,不过,eval方法是有局限性的,对于普通的数据类型,json.loads和eval都能用,但遇到特殊类型的时候,eval就不管用了,所以eval的重点还是通常用来执行一个字符串表达式,并返回表达式的值。
1
2
3
4
|
import json x = "[null,true,false,1]" print ( eval (x)) print (json.loads(x)) |
什么是序列化?
我们把对象(变量)从内存中变成可存储或传输的过程称之为序列化,在Python中叫pickling,在其他语言中也被称之为serialization,marshalling,flattening等等,都是一个意思。
序列化之后,就可以把序列化后的内容写入磁盘,或者通过网络传输到别的机器上。
反过来,把变量内容从序列化的对象重新读到内存里称之为反序列化,即unpickling。
json
如果我们要在不同的编程语言之间传递对象,就必须把对象序列化为标准格式,比如XML,但更好的方法是序列化为JSON,因为JSON表示出来就是一个字符串,可以被所有语言读取,也可以方便地存储到磁盘或者通过网络传输。JSON不仅是标准格式,并且比XML更快,而且可以直接在Web页面中读取,非常方便。
JSON表示的对象就是标准的JavaScript语言的对象,JSON和Python内置的数据类型对应如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
#----------------------------序列化 import json dic = { 'name' : 'alvin' , 'age' : 23 , 'sex' : 'male' } print ( type (dic)) #<class 'dict'> j = json.dumps(dic) print ( type (j)) #<class 'str'> f = open ( '序列化对象' , 'w' ) f.write(j) #-------------------等价于json.dump(dic,f) f.close() #-----------------------------反序列化<br> import json f = open ( '序列化对象' ) data = json.loads(f.read()) # 等价于data=json.load(f) |
pickle
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
##----------------------------序列化 import pickle dic = { 'name' : 'alvin' , 'age' : 23 , 'sex' : 'male' } print ( type (dic)) #<class 'dict'> j = pickle.dumps(dic) print ( type (j)) #<class 'bytes'> f = open ( '序列化对象_pickle' , 'wb' ) #注意是w是写入str,wb是写入bytes,j是'bytes' f.write(j) #-------------------等价于pickle.dump(dic,f) f.close() #-------------------------反序列化 import pickle f = open ( '序列化对象_pickle' , 'rb' ) data = pickle.loads(f.read()) # 等价于data=pickle.load(f) print (data[ 'age' ]) |
Pickle的问题和所有其他编程语言特有的序列化问题一样,就是它只能用于Python,并且可能不同版本的Python彼此都不兼容,因此,只能用Pickle保存那些不重要的数据,不能成功地反序列化也没关系。
3 re 正则模块
import re """ 对字符串的迷糊匹配 """ #元字符 # .通配符,代表一个字符(不能代表一个转行) # ^以什么开头的,来定字符串以什么开头的 # $以什么结尾的,在$d的前面添加字符,用来匹配是以什么结尾的 # *配零到无穷次(前面的字符可以没有) 贪婪匹配 # +匹配的是1到无穷次(前面的字符必须有一个或多个) 贪婪匹配 # ?匹配零到1 (前面的字符只能有零个或一个) 贪婪匹配 # {}匹配里面自定义,{0,}==* {1,}==+ {0,1}==? {x}一个值得时候表示必须重复x次 # 在规则的后面加一个?号 变成惰性匹配 # []字符集 里面起一个或的作用,里面特殊符号没有意义,除了 - ^ # - 包含了一个范围 # ^ 放中括号里的时候表示非 # \ \d还是\d # |分为左边和右边,也是或的意思,一般跟()组合使用 #()分组把括号里面的组成一个来查询 #命名分组 (?P<name>规则) # \有意义的变的无意义,无意义的变的有意义 #1 后面加一个元字符使其变成一个普通符号\. # \d [0-9] # \D [^0-9] # \s [ \t\n\r\f\v]。 # \S [^ \t\n\r\f\v] # \w [0-9a-zA-Z] # \W [^0-9a-zA-Z] # \b 匹配一个特殊字符边界,比如空格 ,&,#等 #findall (规则,字符串)把匹配到的结果放到一个列表中(规则,字符串) #search (规则,字符串)匹配到一个结果后就不会再匹配下去了,返回的结果是一个对象 #match (规则,字符串)只在字符串开始的时候匹配,返回的也是一个对象 #split (规则,字符串,分隔次数)按规则分隔字符串,返回一个列表 #finditer (规则,字符串)把匹配出来的作为一个迭代器,使用next().group()取值 re.finditer("\d+","asd7654das87") s=re.finditer("\d+","asd7654das87") print(s) #compile (规则)编译一个规则对象,返回一个列表 #sub (规则,新的替换对象,字符串)把匹配出来的替换成新的字符串,最后打印字符串 #print(re.findall("a...x","asdfhjhasdfjgjalrexkjsdf")) #把匹配到的结果放到一个列表中 # print(re.findall("alex*","sdfsdfalexxxxxjhgkasj")) # print(re.findall("alex+","sdfsdfalexxxxxjhgkasj")) # print(re.findall("fq[a-z]*","sadfqsssssssadfqdsdf")) # print(re.findall("fq[0-9]*","sadfq113sssssssadfqdsdf")) # print(re.findall("q*","sadfqsadfqdsdf")) # print(re.findall("www.(?:baidu|sougou).com","www.baidu.com")) # print(re.findall("\\d+","asdf65sf785")) # s="hello python hava php c go" # # print(re.sub("p","word",s)) # print(re.sub("\\bp","word",s)) # print(re.findall("\d+\*\d+","2*6+7*45+1.4*3-8/4")) # print(re.findall("\d+\.?\d*\*\d+\.?\d*","2*6+7*45+1.4*3-8/4"))
就其本质而言,正则表达式(或 RE)是一种小型的、高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现。正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行。
字符匹配(普通字符,元字符):
1 普通字符:大多数字符和字母都会和自身匹配
>>> re.findall('alvin','yuanaleSxalexwupeiqi')
['alvin']
2 元字符:. ^ $ * + ? { } [ ] | ( ) \
元字符之. ^ $ * + ? { }
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
|
import re ret = re.findall( 'a..in' , 'helloalvin' ) print (ret) #['alvin'] ret = re.findall( '^a...n' , 'alvinhelloawwwn' ) print (ret) #['alvin'] ret = re.findall( 'a...n$' , 'alvinhelloawwwn' ) print (ret) #['awwwn'] ret = re.findall( 'a...n$' , 'alvinhelloawwwn' ) print (ret) #['awwwn'] ret = re.findall( 'abc*' , 'abcccc' ) #贪婪匹配[0,+oo] print (ret) #['abcccc'] ret = re.findall( 'abc+' , 'abccc' ) #[1,+oo] print (ret) #['abccc'] ret = re.findall( 'abc?' , 'abccc' ) #[0,1] print (ret) #['abc'] ret = re.findall( 'abc{1,4}' , 'abccc' ) print (ret) #['abccc'] 贪婪匹配 |
注意:前面的*,+,?等都是贪婪匹配,也就是尽可能匹配,后面加?号使其变成惰性匹配
1
2
|
ret = re.findall( 'abc*?' , 'abcccccc' ) print (ret) #['ab'] |
元字符之字符集[]:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
|
#--------------------------------------------字符集[] ret = re.findall( 'a[bc]d' , 'acd' ) print (ret) #['acd'] ret = re.findall( '[a-z]' , 'acd' ) print (ret) #['a', 'c', 'd'] ret = re.findall( '[.*+]' , 'a.cd+' ) print (ret) #['.', '+'] #在字符集里有功能的符号: - ^ \ ret = re.findall( '[1-9]' , '45dha3' ) print (ret) #['4', '5', '3'] ret = re.findall( '[^ab]' , '45bdha3' ) print (ret) #['4', '5', 'd', 'h', '3'] ret = re.findall( '[\d]' , '45bdha3' ) print (ret) #['4', '5', '3'] |
元字符之转义符\
反斜杠后边跟元字符去除特殊功能,比如\.
反斜杠后边跟普通字符实现特殊功能,比如\d
\d 匹配任何十进制数;它相当于类 [0-9]。
\D 匹配任何非数字字符;它相当于类 [^0-9]。
\s 匹配任何空白字符;它相当于类 [ \t\n\r\f\v]。
\S 匹配任何非空白字符;它相当于类 [^ \t\n\r\f\v]。
\w 匹配任何字母数字字符;它相当于类 [a-zA-Z0-9_]。
\W 匹配任何非字母数字字符;它相当于类 [^a-zA-Z0-9_]
\b 匹配一个特殊字符边界,比如空格 ,&,#等
1
2
3
4
|
ret = re.findall( 'I\b' , 'I am LIST' ) print (ret) #[] ret = re.findall(r 'I\b' , 'I am LIST' ) print (ret) #['I'] |
现在我们聊一聊\,先看下面两个匹配:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
#-----------------------------eg1: import re ret = re.findall( 'c\l' , 'abc\le' ) print (ret) #[] ret = re.findall( 'c\\l' , 'abc\le' ) print (ret) #[] ret = re.findall( 'c\\\\l' , 'abc\le' ) print (ret) #['c\\l'] ret = re.findall(r 'c\\l' , 'abc\le' ) print (ret) #['c\\l'] #-----------------------------eg2: #之所以选择\b是因为\b在ASCII表中是有意义的 m = re.findall( '\bblow' , 'blow' ) print (m) m = re.findall(r '\bblow' , 'blow' ) print (m) |
元字符之分组()
1
2
3
4
5
6
|
m = re.findall(r '(ad)+' , 'add' ) print (m) ret = re.search( '(?P<id>\d{2})/(?P<name>\w{3})' , '23/com' ) print (ret.group()) #23/com print (ret.group( 'id' )) #23 |
元字符之|
1
2
|
ret = re.search( '(ab)|\d' , 'rabhdg8sd' ) print (ret.group()) #ab |
re模块下的常用方法
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|
import re #1 re.findall( 'a' , 'alvin yuan' ) #返回所有满足匹配条件的结果,放在列表里 #2 re.search( 'a' , 'alvin yuan' ).group() #函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以 # 通过调用group()方法得到匹配的字符串,如果字符串没有匹配,则返回None。 #3 re.match( 'a' , 'abc' ).group() #同search,不过尽在字符串开始处进行匹配 #4 ret = re.split( '[ab]' , 'abcd' ) #先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割 print (ret) #['', '', 'cd'] #5 ret = re.sub( '\d' , 'abc' , 'alvin5yuan6' , 1 ) print (ret) #alvinabcyuan6 ret = re.subn( '\d' , 'abc' , 'alvin5yuan6' ) print (ret) #('alvinabcyuanabc', 2) #6 obj = re. compile ( '\d{3}' ) ret = obj.search( 'abc123eeee' ) print (ret.group()) #123 |
1
2
3
4
5
6
|
import re ret = re.finditer( '\d' , 'ds3sy4784a' ) print (ret) #<callable_iterator object at 0x10195f940> print ( next (ret).group()) print ( next (ret).group()) |
注意:
1
2
3
4
5
6
7
|
import re ret = re.findall( 'www.(baidu|oldboy).com' , 'www.oldboy.com' ) print (ret) #['oldboy'] 这是因为findall会优先把匹配结果组里内容返回,如果想要匹配结果,取消权限即可 ret = re.findall( 'www.(?:baidu|oldboy).com' , 'www.oldboy.com' ) print (ret) #['www.oldboy.com'] |
算法
就其本质而言,正则表达式(或 RE)是一种小型的、高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现。正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行。
字符匹配(普通字符,元字符):
1 普通字符:大多数字符和字母都会和自身匹配
>>> re.findall('alvin','yuanaleSxalexwupeiqi')
['alvin']
2 元字符:. ^ $ * + ? { } [ ] | ( ) \
元字符之. ^ $ * + ? { }
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
|
import re ret = re.findall( 'a..in' , 'helloalvin' ) print (ret) #['alvin'] ret = re.findall( '^a...n' , 'alvinhelloawwwn' ) print (ret) #['alvin'] ret = re.findall( 'a...n$' , 'alvinhelloawwwn' ) print (ret) #['awwwn'] ret = re.findall( 'a...n$' , 'alvinhelloawwwn' ) print (ret) #['awwwn'] ret = re.findall( 'abc*' , 'abcccc' ) #贪婪匹配[0,+oo] print (ret) #['abcccc'] ret = re.findall( 'abc+' , 'abccc' ) #[1,+oo] print (ret) #['abccc'] ret = re.findall( 'abc?' , 'abccc' ) #[0,1] print (ret) #['abc'] ret = re.findall( 'abc{1,4}' , 'abccc' ) print (ret) #['abccc'] 贪婪匹配 |
注意:前面的*,+,?等都是贪婪匹配,也就是尽可能匹配,后面加?号使其变成惰性匹配
1
2
|
ret = re.findall( 'abc*?' , 'abcccccc' ) print (ret) #['ab'] |
元字符之字符集[]:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
|
#--------------------------------------------字符集[] ret = re.findall( 'a[bc]d' , 'acd' ) print (ret) #['acd'] ret = re.findall( '[a-z]' , 'acd' ) print (ret) #['a', 'c', 'd'] ret = re.findall( '[.*+]' , 'a.cd+' ) print (ret) #['.', '+'] #在字符集里有功能的符号: - ^ \ ret = re.findall( '[1-9]' , '45dha3' ) print (ret) #['4', '5', '3'] ret = re.findall( '[^ab]' , '45bdha3' ) print (ret) #['4', '5', 'd', 'h', '3'] ret = re.findall( '[\d]' , '45bdha3' ) print (ret) #['4', '5', '3'] |
元字符之转义符\
反斜杠后边跟元字符去除特殊功能,比如\.
反斜杠后边跟普通字符实现特殊功能,比如\d
\d 匹配任何十进制数;它相当于类 [0-9]。
\D 匹配任何非数字字符;它相当于类 [^0-9]。
\s 匹配任何空白字符;它相当于类 [ \t\n\r\f\v]。
\S 匹配任何非空白字符;它相当于类 [^ \t\n\r\f\v]。
\w 匹配任何字母数字字符;它相当于类 [a-zA-Z0-9_]。
\W 匹配任何非字母数字字符;它相当于类 [^a-zA-Z0-9_]
\b 匹配一个特殊字符边界,比如空格 ,&,#等
1
2
3
4
|
ret = re.findall( 'I\b' , 'I am LIST' ) print (ret) #[] ret = re.findall(r 'I\b' , 'I am LIST' ) print (ret) #['I'] |
现在我们聊一聊\,先看下面两个匹配:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
#-----------------------------eg1: import re ret = re.findall( 'c\l' , 'abc\le' ) print (ret) #[] ret = re.findall( 'c\\l' , 'abc\le' ) print (ret) #[] ret = re.findall( 'c\\\\l' , 'abc\le' ) print (ret) #['c\\l'] ret = re.findall(r 'c\\l' , 'abc\le' ) print (ret) #['c\\l'] #-----------------------------eg2: #之所以选择\b是因为\b在ASCII表中是有意义的 m = re.findall( '\bblow' , 'blow' ) print (m) m = re.findall(r '\bblow' , 'blow' ) print (m) |
元字符之分组()
1
2
3
4
5
6
|
m = re.findall(r '(ad)+' , 'add' ) print (m) ret = re.search( '(?P<id>\d{2})/(?P<name>\w{3})' , '23/com' ) print (ret.group()) #23/com print (ret.group( 'id' )) #23 |
元字符之|
1
2
|
ret = re.search( '(ab)|\d' , 'rabhdg8sd' ) print (ret.group()) #ab |
re模块下的常用方法
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|
import re #1 re.findall( 'a' , 'alvin yuan' ) #返回所有满足匹配条件的结果,放在列表里 #2 re.search( 'a' , 'alvin yuan' ).group() #函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以 # 通过调用group()方法得到匹配的字符串,如果字符串没有匹配,则返回None。 #3 re.match( 'a' , 'abc' ).group() #同search,不过尽在字符串开始处进行匹配 #4 ret = re.split( '[ab]' , 'abcd' ) #先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割 print (ret) #['', '', 'cd'] #5 ret = re.sub( '\d' , 'abc' , 'alvin5yuan6' , 1 ) print (ret) #alvinabcyuan6 ret = re.subn( '\d' , 'abc' , 'alvin5yuan6' ) print (ret) #('alvinabcyuanabc', 2) #6 obj = re. compile ( '\d{3}' ) ret = obj.search( 'abc123eeee' ) print (ret.group()) #123 |
1
2
3
4
5
6
|
import re ret = re.finditer( '\d' , 'ds3sy4784a' ) print (ret) #<callable_iterator object at 0x10195f940> print ( next (ret).group()) print ( next (ret).group()) |
注意:
1
2
3
4
5
6
7
|
import re ret = re.findall( 'www.(baidu|oldboy).com' , 'www.oldboy.com' ) print (ret) #['oldboy'] 这是因为findall会优先把匹配结果组里内容返回,如果想要匹配结果,取消权限即可 ret = re.findall( 'www.(?:baidu|oldboy).com' , 'www.oldboy.com' ) print (ret) #['www.oldboy.com'] |