python基础语法13 内置模块 subprocess, 正则表达式re模块, logging日志记录模块(过滤,时间格式), 防止导入模块时自动执行测试功能, 包的理论
subprocess模块:
- 可以通过python代码给操作系统终端发送命令,
并且可以返回结果。
sub: 子 process: 进程
import subprocess while True: # 1.让用户输入终端命令 cmd_str = input('请输入终端命令:').strip() # Popen(cmd命令, shell=True, # stdout=subprocess.PIPE, stderr=subprocess.PIPE) # 调用Popen就会将用户的终端命令发送给本地操作系统的终端 # 得到一个对象,对象中包含着正确或错误的结果。 obj = subprocess.Popen( cmd_str, shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE ) success = obj.stdout.read().decode('gbk') if success: print(success, '正确的结果') error = obj.stderr.read().decode('gbk') if error: print(error, '错误的结果')
方法2
import subprocess res = subprocess.getoutput('ipconfig') print(res) # 打印ip配置
re模块
- 1)什么是正则表达式与re模块?
- 正则表达式:
正则表达式是一门独立的技术, 任何语言都可以使用正则表达式,
正则表达式是由一堆特殊的字符组合而来的。
- 字符组
- 元字符
- 组合使用
- re模块:
在python中,若想使用正则表达式,必须通过re模块来实现。
- 2)为什么要使用正则?
比如要获取“一堆字符串”中的“某些字符”,
正则表达式可以帮我们过滤,并提取出想要的字符数据。
# 比如过滤并获取 “tank”
'wafawrjkwagfiu21knriut8ankjfdgau0q92ru20yrisana tank wyqfwqrqyr9q 9'
- 应用场景:
- 爬虫: re, BeautifulSoup4, Xpath, selector
- 数据分析过滤数据: re, pandas, numpy...
- 用户名与密码、手机认证:检测输入内容的合法性
- 用户名: na tank
- 3)如何使用?
import re
# re校验 import re while True: phone_number = input('请输入手机号码:').strip() # 需求: 11位、开头13/14/15/19 # 参数1: 正则表达式 '' # 参数2: 需要过滤的字符串 # ^: 代表“开头” # $: 代表“结束” # |: 代表“或” # (13|14): 可以获取一个值,判断是否是13或14. # {1}: 需要获取1个值 限制数量 # []: 分组限制取值范围 # [0-9]: 限制只能获取0——9的某一个字符。 if re.match('^(13|14|15|19)[0-9]{9}$', phone_number): # $不加也行 print('合法') break else: print('不合法')
''' - 字符组: - [0-9] 可以匹配到一个0-9的字符 - [9-0]: 报错, 必须从小到大 - [a-z]: 从小写的a-z - [A-Z]: 从大写A-Z - [z-A]: 错误, 只能从小到大,根据ascii表来匹配大小。 - [A-z]: 总大写的A到小写的z。 注意: 顺序必须要按照ASCII码数值的顺序编写。 ''' import re # res = re.match('[A-Za-z0-9]{8}', 'Tank9527') print(res) # 获取一个 print(res.group()) # Tank9527
''' - 元字符: *******根据博客的表格来记 (看一眼) https://images2015.cnblogs.com/blog/1036857/201705/1036857-20170529203214461-666088398.png - 组合使用 - \w\W: 匹配字母数字下划线与非字母数字下划线,匹配所有。 - \d\D: 无论是数字或者非数字都可以匹配。 - \t: table - \n: 换行 - \b: 匹配单词结尾,tank jasonk - ^: startswith - '^'在外面使用: 表示开头。 - [^]: 表示取反的意思。 - $: endswith - ^$: 配合使用叫做精准匹配,如何限制一个字符串的长度或者内容。 - |: 或。ab|abc如果第一个条件成立,则abc不会执行,怎么解决,针对这种情况把长的写在前面就好了,一定要将长的放在前面。 - [^...]: 表示取反的意思。 - [^ab]: 代表只去ab以外的字符。 - [^a-z]: 取a-z以外的字符。 ''' # import re ''' re模块三种比较重要的方法: - findall(): ----> [] 可以匹配 "所有字符" ,拿到返回的结果,返回的结果是一个列表。 'awfwaghowiahioawhio' # a ['a', 'a', 'a', 'a'] - search():----> obj ----> obj.group() 'awfwaghowiahioawhio' # a 在匹配一个字符成功后,拿到结果后结束,不往后匹配。 'a' - match():----> obj ----> obj.group() 'awfwaghowiahioawhio' # a 'a' 'wfwaghowiahioawhio' # a None 从匹配字符的开头匹配,若开头不是想要的内容,则返回None。 '''
# import re ''' re模块三种比较重要的方法: - findall(): ----> [] 可以匹配 "所有字符" ,拿到返回的结果,返回的结果是一个列表。 'awfwaghowiahioawhio' # a ['a', 'a', 'a', 'a'] - search():----> obj ----> obj.group() 'awfwaghowiahioawhio' # a 在匹配一个字符成功后,拿到结果后结束,不往后匹配。 'a' - match():----> obj ----> obj.group() 'awfwaghowiahioawhio' # a 'a' 'wfwaghowiahioawhio' # a None 从匹配字符的开头匹配,若开头不是想要的内容,则返回None。 ''' import re str1 = 'sean tank json' # findall res = re.findall('[a-z]{4}', str1) print(res) # ['sean', 'tank', 'json'] # search res = re.search('[a-z]{4}', str1) print(res) # <_sre.SRE_Match object; span=(0, 4), match='sean'> print(res.group()) # sean # match res = re.match('sean', str1) print(res) # <_sre.SRE_Match object; span=(0, 4), match='sean'> if res: #放置为空.group()报错 print(res.group()) # sean
爬取豆瓣TOP250电影信息
第1页:
https://movie.douban.com/top250?start=0&filter=
...
第9页:
https://movie.douban.com/top250?start=200&filter=
第10页:
https://movie.douban.com/top250?start=225&filter=
爬蟲四部原理:
1.发送请求: requests
2.获取响应数据: 对方机器直接返回的
3.解析并提取想要的数据: re
4.保存提取后的数据: with open()
爬蟲三部曲:
1.发送请求
2.解析数据
3.保存数据
# 往10个链接发送请求获取响应数据
- requests模块 ---》 请求库
import requests import re # 爬蟲三部曲: # 1.发送请求 def get_page(url): response = requests.get(url) # response.content # 获取二进制流数据,比如图片、视频、音频 # response.text # 获取响应文本,比如html代码 return response # 2.解析数据 # 伪代码: # response = get_page('url地址') # parser_page(response.text) def parser_page(text): # response.text # re.findall('正则表达式', '过滤的文本') res_list = re.findall( '<div class="item">.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人评价', text, re.S) # findall只能读一行,用re.S参数会选中全部内容 for movie_tuple in res_list: # print(movie_tuple) yield movie_tuple # 3.保存数据 # 伪代码: # res_list = parser_page(text) # save_data(res_list) def save_data(res_list_iter): with open('douban.txt', 'a', encoding='utf-8') as f: for movie_tuple in res_list_iter: movie_url, movie_name, movie_point, movie_num = movie_tuple # 写入文件前的模样 str1 = f''' 电影地址: {movie_url} 电影名字: {movie_name} 电影评分: {movie_point} 评价人数: {movie_num} ''' f.write(str1) # 获取10个链接 n = 0 for line in range(10): url = f'https://movie.douban.com/top250?start={n}&filter=' n += 25 print(url) response = get_page(url) res_list_iter = parser_page(response.text) # print(res_list_iter) save_data(res_list_iter)
re.search及group使用
# 正则表达式中,group()用来提出分组截获的字符串,()用来分组 import re a = "123abc456" print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0) #123abc456,返回整体 print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(1) #123 print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(2) #abc print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(3) #456 ''' 究其因 1. 正则表达式中的三组括号把匹配结果分成三组 group() 同group(0)就是匹配正则表达式整体结果 group(1) 列出第一个括号匹配部分,group(2) 列出第二个括号匹配部分,group(3) 列出第三个括号匹配部分。 2. 没有匹配成功的,re.search()返回None 3. 当然郑则表达式中没有括号,group(1)肯定不对了。 '''
例: msg = 'NAME="vdb" FSTYPE="" LABEL="" UUID="" FSAVAIL="" FSUSE%="" MOUNTPOINT="33"' mountpoint_str = re.search('MOUNTPOINT="(.*?)"',msg) mountpoint = mountpoint_str.group() # MOUNTPOINT="33" mountpoint1 = mountpoint_str.group(1) # 33
logging模块
- 是用来记录日志的模块,一般记录用户在软件中的操作。
def get_logger(user_type):
# 1.加载log配置字典到logging模块的配置中
logging.config.dictConfig(LOGGING_DIC)
# 2.获取日志对象
logger = logging.getLogger(user_type)
return logger
logger = get_logger('user')
logger.info('日志消息')
# logging的配置信息 """ logging配置 """ import os import logging.config # 定义三种日志输出格式 开始 standard_format = '[%(asctime)s][%(threadName)s:%(thread)d][task_id:%(name)s][%(filename)s:%(lineno)d]' \ '[%(levelname)s][%(message)s]' #其中name为getlogger指定的名字 simple_format = '[%(levelname)s][%(asctime)s][%(filename)s:%(lineno)d]%(message)s'
# simple_format = '[%(levelname)8s][%(asctime)s][%(filename)s:%(lineno)d]%(message)s' 此处level等级的8代表占位8位,右对齐
# simple_format = '[%(levelname)-8s][%(asctime)s][%(filename)s:%(lineno)d]%(message)s' 此处level等级的-8代表占位8位,左对齐
id_simple_format = '[%(levelname)s][%(asctime)s] %(message)s' # 定义日志输出格式 结束 # ****************注意1: log文件的目录 BASE_PATH = os.path.dirname(os.path.dirname(__file__)) logfile_dir = os.path.join(BASE_PATH, 'log') # print(logfile_dir) # ****************注意2: log文件名 logfile_name = 'user.log' # 如果不存在定义的日志目录就创建一个 if not os.path.isdir(logfile_dir): os.mkdir(logfile_dir) # log文件的全路径 logfile_path = os.path.join(logfile_dir, logfile_name) # ****************注意3: log配置字典 LOGGING_DIC = { 'version': 1, 'disable_existing_loggers': False, 'formatters': { 'standard': { 'format': standard_format }, 'simple': { 'format': simple_format }, }, 'filters': {}, 'handlers': { #打印到终端的日志 'console': { 'level': 'DEBUG', 'class': 'logging.StreamHandler', # 打印到屏幕 'formatter': 'simple' }, # 打印到文件的日志,收集info及以上的日志 'default': { 'level': 'DEBUG', 'class': 'logging.handlers.RotatingFileHandler', # 保存到文件(滚动保存,多个文件方式) 'formatter': 'standard', 'filename': logfile_path, # 日志文件 'maxBytes': 1024*1024*5, # 日志大小 5M 'backupCount': 5, # 超过上面设置的5M,就创建一个新的备份,最高备份5个,超出会把第一个覆盖掉 'encoding': 'utf-8', # 日志文件的编码,再也不用担心中文log乱码了 }, }, 'loggers': { #logging.getLogger(__name__)拿到的logger配置 '': { 'handlers': ['default', 'console'], # 这里把上面定义的两个handler都加上,即log数据既写入文件又打印到屏幕 'level': 'DEBUG', 'propagate': True, # 向上(更高level的logger)传递 }, }, } # 注意4: def get_logger(user_type): # 1.加载log配置字典到logging模块的配置中 logging.config.dictConfig(LOGGING_DIC) # 2.获取日志对象 # logger = logging.getLogger('user') # logger = logging.getLogger('bank') # logger = logging.getLogger('shop') logger = logging.getLogger(user_type) return logger # logging.config.dictConfig(LOGGING_DIC) # # 调用获取日志函数的到日志对象 # logger = logging.getLogger('user') # 通过logger日志对象,调用内部的日志打印 logger = get_logger('user') # '只要思想不滑坡,方法总比问题多!'就是需要记录的日志信息 logger.info('学习不要浮躁,一步一个脚印!') # logger.info('只要思想不滑坡,方法总比问题多!')
logging过滤器
# 下方为实例(两个log记录) import logging # 定义三种日志输出格式 standard_format ='[%(asctime)s][%(threadName)s:%(thread)d][task_id:%(name)s][%(filename)s:%(lineno)d]' \ '[%(levelname)s][%(message)s]' #其中name为getlogger指定的名字 simple_format = '[%(levelname)s][%(asctime)s][%(filename)s:%(lineno)d]%(message)s' json_format = '{"parentSpanId":"-","level":%(levelname)s,"thread":%(threadName)s,"method":%(filename)s,"msg":%(message)s,' \ '"date":%(asctime)s,"project":"agent","service":"agent-service"}' class MyFilter(logging.Filter): # 定义过滤器 def __init__(self, param=None): self.param = param def filter(self, record): if self.param is None: allow = True else: allow = self.param not in record.msg if allow: record.msg = 'changed: ' + record.msg # 修改log记录的message信息 return allow # 返回true进行记录 # return False # 不记录入log LOGGING_DIC = { 'version': 1, 'disable_existing_loggers': False, 'formatters': { 'standard': { 'format': standard_format }, 'simple': { 'format': simple_format }, 'json_format':{ 'format': json_format } }, 'filters': { 'myfilter': { '()': MyFilter, 'param': 'noshow', } }, 'handlers': { #打印到终端的日志 'console': { 'level': 'DEBUG', 'class': 'logging.StreamHandler', # 打印到屏幕 'formatter': 'simple' }, # 打印到文件的日志,收集info及以上的日志 'default': { 'level': 'WARNING', 'class': 'logging.handlers.RotatingFileHandler', # 保存到文件 'formatter': 'standard', 'filename': logfile_path, # 日志文件 'maxBytes': 1024*1024*5, # 日志大小 5M 'backupCount': 5, 'encoding': 'utf-8', # 日志文件的编码, 'filters':['myfilter'] }, 'json':{ # json格式,用于全链路记录 'level': 'INFO', 'class': 'logging.handlers.RotatingFileHandler', # 保存到文件 'formatter': 'json_format', 'filename': json_logfile_path, # 日志文件 'maxBytes': 1024*1024*5, # 日志大小 5M 'backupCount': 5, 'encoding': 'utf-8', # 日志文件的编码 } }, 'loggers': { #logging.getLogger(__name__)拿到的logger配置 'agent': { 'handlers': ['default', 'console'], # 这里把上面定义的两个handler都加上,即log数据既写入文件又打印到屏幕 'level': 'DEBUG', 'propagate': True, # 向上(更高level的logger)传递 }, 'full_link':{ 'handlers': ['json'], # 这里把上面定义的两个handler都加上,即log数据既写入文件又打印到屏幕 'level': 'INFO', 'propagate': True, # 向上(更高level的logger)传递 } }, }
时间格式
# logging字典配置 standard_format ='[%(asctime)s][%(threadName)s:%(thread)d][task_id:%(name)s][%(filename)s:%(lineno)d]' \ '[%(levelname)s][%(message)s]' #其中name为getlogger指定的名字 simple_format = '[%(levelname)s][%(asctime)s][%(filename)s:%(lineno)d]%(message)s' # 时间格式改为时间加上毫秒(3位) json_format = '{"thread":"%(threadName)s",%(message)s,"date":"%(asctime)s:%(msecs)03d","project":"agent","service":"agent-service"}' LOGGING_DIC = { 'version': 1, 'disable_existing_loggers': False, 'formatters': { 'standard': { 'format': standard_format }, 'simple': { 'format': simple_format }, 'json_format':{ 'format': json_format, 'datefmt':'%Y-%m-%d %H:%M:%S' # 时间格式修改 } }, 'filters': {}, 'handlers': { #打印到终端的日志 'console': { 'level': 'DEBUG', 'class': 'logging.StreamHandler', # 打印到屏幕 'formatter': 'simple' }, # 打印到文件的日志,收集info及以上的日志 'default': { 'level': 'WARNING', 'class': 'logging.handlers.RotatingFileHandler', # 保存到文件 'formatter': 'standard', 'filename': logfile_path, # 日志文件 'maxBytes': 1024*1024*5, # 日志大小 5M 'backupCount': 5, 'encoding': 'utf-8', # 日志文件的编码, }, 'json':{ # json格式,用于全链路记录 'level': 'INFO', 'class': 'logging.handlers.RotatingFileHandler', # 保存到文件 'formatter': 'json_format', 'filename': json_logfile_path, # 日志文件 'maxBytes': 1024*1024*5, # 日志大小 5M 'backupCount': 5, 'encoding': 'utf-8', # 日志文件的编码 } }, 'loggers': { #logging.getLogger(__name__)拿到的logger配置 'agent': { 'handlers': ['default', 'console'], # 这里把上面定义的两个handler都加上,即log数据既写入文件又打印到屏幕 'level': 'DEBUG', 'propagate': True, # 向上(更高level的logger)传递 }, 'full_link':{ 'handlers': ['json'], # 这里把上面定义的两个handler都加上,即log数据既写入文件又打印到屏幕 'level': 'INFO', 'propagate': True, # 向上(更高level的logger)传递 } }, }
防止导入模块时自动执行测试功能
# 被导入模块(test1.py) def func(): print('from test1.func...') # func() # __name__属于模块名称空间中的一个名字 # 当我们执行该模块时就会产生 print(__name__) # 在当前文件中名字为:__main__ 被导入时: 模块的名字 # 注意: 记住--》 main + 回车键 if __name__ == '__main__': # 在此处对功能进行测试 print('在当前模块下执行测试功能...') func() else: print('当前模块已被导入...')
# 导入模块 import test1
包的理论
- 夺命三问:
1.什么是包?
包是一个带有__init__.py的文件夹,包也可以被导入,
并且可以一并导入包下的所有模块。
2.为什么要使用包?
包可以帮我们管理模块,在包中有一个__init__.py, 由它来帮我们管理模块。
3.怎么使用包?
- import 包.模块名
包.模块.名字
- from 包 import 模块名
- from 包.模块名 import 模块中的名字
- 导入包时发生的事情:
1.当包被导入时,会以包中的__init__.py来产生一个名称空间。
2.然后执行__init__.py文件, 会将__init__.py中的所有名字添加到名称空间中。
3.接着会将包下所有的模块的名字加载到__init__.py产生的名称空间中。
4.导入的模块指向的名称空间其实就是__init__.py产生的名称空间中。