python基础语法13 内置模块 subprocess, 正则表达式re模块, logging日志记录模块(过滤,时间格式), 防止导入模块时自动执行测试功能, 包的理论

subprocess模块:

- 可以通过python代码给操作系统终端发送命令,
并且可以返回结果。

sub: 子    process: 进程

import subprocess
while True:
    # 1.让用户输入终端命令
    cmd_str = input('请输入终端命令:').strip()
    # Popen(cmd命令, shell=True,
    # stdout=subprocess.PIPE, stderr=subprocess.PIPE)
    # 调用Popen就会将用户的终端命令发送给本地操作系统的终端
    # 得到一个对象,对象中包含着正确或错误的结果。
    obj = subprocess.Popen(
        cmd_str, shell=True,
        stdout=subprocess.PIPE,
        stderr=subprocess.PIPE
    )

    success = obj.stdout.read().decode('gbk')
    if success:
        print(success, '正确的结果')

    error = obj.stderr.read().decode('gbk')
    if error:
        print(error, '错误的结果')

方法2

 

import subprocess

res = subprocess.getoutput('ipconfig')
print(res)  # 打印ip配置

 

 

re模块

- 1)什么是正则表达式与re模块?
  - 正则表达式:
    正则表达式是一门独立的技术, 任何语言都可以使用正则表达式,
    正则表达式是由一堆特殊的字符组合而来的。
    - 字符组
    - 元字符
      - 组合使用

  - re模块:
    在python中,若想使用正则表达式,必须通过re模块来实现。

- 2)为什么要使用正则?
  比如要获取“一堆字符串”中的“某些字符”,
  正则表达式可以帮我们过滤,并提取出想要的字符数据。

  # 比如过滤并获取 “tank”
  'wafawrjkwagfiu21knriut8ankjfdgau0q92ru20yrisana tank wyqfwqrqyr9q 9'

  - 应用场景:
    - 爬虫: re, BeautifulSoup4, Xpath, selector
    - 数据分析过滤数据: re, pandas, numpy...
    - 用户名与密码、手机认证:检测输入内容的合法性
      - 用户名: na tank

- 3)如何使用?
  import re

# re校验
import re
while True:
    phone_number = input('请输入手机号码:').strip()

    # 需求: 11位、开头13/14/15/19
    # 参数1: 正则表达式  ''
    # 参数2: 需要过滤的字符串
    # ^: 代表“开头”
    # $: 代表“结束”
    # |: 代表“或”
    # (13|14): 可以获取一个值,判断是否是13或14.
    # {1}: 需要获取1个值 限制数量
    # []: 分组限制取值范围
    # [0-9]: 限制只能获取0——9的某一个字符。
    if re.match('^(13|14|15|19)[0-9]{9}$', phone_number):   # $不加也行
        print('合法')
        break

    else:
        print('不合法')
'''
- 字符组:
  - [0-9] 可以匹配到一个0-9的字符
  - [9-0]: 报错, 必须从小到大
  - [a-z]: 从小写的a-z
  - [A-Z]: 从大写A-Z
  - [z-A]: 错误, 只能从小到大,根据ascii表来匹配大小。
  - [A-z]: 总大写的A到小写的z。

  注意: 顺序必须要按照ASCII码数值的顺序编写。
'''
import re
#
res = re.match('[A-Za-z0-9]{8}', 'Tank9527')
print(res)  # 获取一个
print(res.group())  # Tank9527
'''
- 元字符:
    *******根据博客的表格来记 (看一眼)
    https://images2015.cnblogs.com/blog/1036857/201705/1036857-20170529203214461-666088398.png

    - 组合使用
      - \w\W: 匹配字母数字下划线与非字母数字下划线,匹配所有。
      - \d\D: 无论是数字或者非数字都可以匹配。
      - \t: table
      - \n: 换行
      - \b: 匹配单词结尾,tank  jasonk
      - ^: startswith
            - '^'在外面使用: 表示开头。
            - [^]: 表示取反的意思。
            
      - $: endswith
        
      - ^$: 配合使用叫做精准匹配,如何限制一个字符串的长度或者内容。
      - |: 或。ab|abc如果第一个条件成立,则abc不会执行,怎么解决,针对这种情况把长的写在前面就好了,一定要将长的放在前面。
      - [^...]: 表示取反的意思。
      - [^ab]: 代表只去ab以外的字符。
      - [^a-z]: 取a-z以外的字符。
'''

# import re
'''
re模块三种比较重要的方法:
    - findall(): ----> []
        可以匹配 "所有字符" ,拿到返回的结果,返回的结果是一个列表。
        'awfwaghowiahioawhio'  # a
        ['a', 'a', 'a', 'a']
        
    - search():----> obj ----> obj.group()
        'awfwaghowiahioawhio'  # a
        在匹配一个字符成功后,拿到结果后结束,不往后匹配。
        'a'
    
    - match():----> obj ----> obj.group()
        'awfwaghowiahioawhio'  # a
        'a'
        'wfwaghowiahioawhio'  # a
         None
        从匹配字符的开头匹配,若开头不是想要的内容,则返回None。
'''
# import re
'''
re模块三种比较重要的方法:
    - findall(): ----> []
        可以匹配 "所有字符" ,拿到返回的结果,返回的结果是一个列表。
        'awfwaghowiahioawhio'  # a
        ['a', 'a', 'a', 'a']
        
    - search():----> obj ----> obj.group()
        'awfwaghowiahioawhio'  # a
        在匹配一个字符成功后,拿到结果后结束,不往后匹配。
        'a'
    
    - match():----> obj ----> obj.group()
        'awfwaghowiahioawhio'  # a
        'a'
        'wfwaghowiahioawhio'  # a
         None
        从匹配字符的开头匹配,若开头不是想要的内容,则返回None。
'''
import re
str1 = 'sean tank json'
# findall
res = re.findall('[a-z]{4}', str1)
print(res)  # ['sean', 'tank', 'json']

# search
res = re.search('[a-z]{4}', str1)
print(res)    # <_sre.SRE_Match object; span=(0, 4), match='sean'>
print(res.group())   # sean

# match
res = re.match('sean', str1)
print(res)     # <_sre.SRE_Match object; span=(0, 4), match='sean'>
if res:   #放置为空.group()报错
    print(res.group())    # sean

爬取豆瓣TOP250电影信息

  第1页:
    https://movie.douban.com/top250?start=0&filter=

  ...

  第9页:
    https://movie.douban.com/top250?start=200&filter=

  第10页:
    https://movie.douban.com/top250?start=225&filter=

爬蟲四部原理:
  1.发送请求: requests
  2.获取响应数据: 对方机器直接返回的
  3.解析并提取想要的数据: re
  4.保存提取后的数据: with open()

爬蟲三部曲:
  1.发送请求
  2.解析数据
  3.保存数据


# 往10个链接发送请求获取响应数据
  - requests模块 ---》 请求库

 

import requests
import re


# 爬蟲三部曲:
# 1.发送请求
def get_page(url):
    response = requests.get(url)
    # response.content  # 获取二进制流数据,比如图片、视频、音频
    # response.text  # 获取响应文本,比如html代码
    return response


# 2.解析数据
# 伪代码:
# response = get_page('url地址')
# parser_page(response.text)
def parser_page(text):  # response.text
    # re.findall('正则表达式', '过滤的文本')
    res_list = re.findall(
        '<div class="item">.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人评价',
        text,
        re.S) # findall只能读一行,用re.S参数会选中全部内容

    for movie_tuple in res_list:
        # print(movie_tuple)
        yield movie_tuple


# 3.保存数据
# 伪代码:
# res_list = parser_page(text)
# save_data(res_list)
def save_data(res_list_iter):
    with open('douban.txt', 'a', encoding='utf-8') as f:
        for movie_tuple in res_list_iter:
            movie_url, movie_name, movie_point, movie_num = movie_tuple
            # 写入文件前的模样
            str1 = f'''
            电影地址: {movie_url} 
            电影名字: {movie_name} 
            电影评分: {movie_point} 
            评价人数: {movie_num} 
            '''
            f.write(str1)


# 获取10个链接
n = 0
for line in range(10):
    url = f'https://movie.douban.com/top250?start={n}&filter='
    n += 25
    print(url)

    response = get_page(url)
    res_list_iter = parser_page(response.text)
    # print(res_list_iter)
    save_data(res_list_iter)

 re.search及group使用

# 正则表达式中,group()用来提出分组截获的字符串,()用来分组

import re
a = "123abc456"
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0)   #123abc456,返回整体
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(1)   #123
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(2)   #abc
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(3)   #456

'''
究其因
1. 正则表达式中的三组括号把匹配结果分成三组
 group() 同group(0)就是匹配正则表达式整体结果
 group(1) 列出第一个括号匹配部分,group(2) 列出第二个括号匹配部分,group(3) 列出第三个括号匹配部分。
2. 没有匹配成功的,re.search()返回None

3. 当然郑则表达式中没有括号,group(1)肯定不对了。
'''
例:
msg = 'NAME="vdb" FSTYPE="" LABEL="" UUID="" FSAVAIL="" FSUSE%="" MOUNTPOINT="33"'
mountpoint_str = re.search('MOUNTPOINT="(.*?)"',msg)
mountpoint = mountpoint_str.group()
# MOUNTPOINT="33"
mountpoint1 = mountpoint_str.group(1)
# 33

 

logging模块

  - 是用来记录日志的模块,一般记录用户在软件中的操作。
  def get_logger(user_type):
    # 1.加载log配置字典到logging模块的配置中
    logging.config.dictConfig(LOGGING_DIC)

    # 2.获取日志对象
    logger = logging.getLogger(user_type)
    return logger

  logger = get_logger('user')
  logger.info('日志消息')

# logging的配置信息
"""
logging配置
"""
import os

import logging.config

# 定义三种日志输出格式 开始
standard_format = '[%(asctime)s][%(threadName)s:%(thread)d][task_id:%(name)s][%(filename)s:%(lineno)d]' \
                  '[%(levelname)s][%(message)s]' #其中name为getlogger指定的名字

simple_format = '[%(levelname)s][%(asctime)s][%(filename)s:%(lineno)d]%(message)s'
# simple_format = '[%(levelname)8s][%(asctime)s][%(filename)s:%(lineno)d]%(message)s'  此处level等级的8代表占位8位,右对齐
# simple_format = '[%(levelname)-8s][%(asctime)s][%(filename)s:%(lineno)d]%(message)s'  此处level等级的-8代表占位8位,左对齐
id_simple_format = '[%(levelname)s][%(asctime)s] %(message)s'

# 定义日志输出格式 结束
# ****************注意1: log文件的目录
BASE_PATH = os.path.dirname(os.path.dirname(__file__))
logfile_dir = os.path.join(BASE_PATH, 'log')
# print(logfile_dir)

# ****************注意2: log文件名
logfile_name = 'user.log'

# 如果不存在定义的日志目录就创建一个
if not os.path.isdir(logfile_dir):
    os.mkdir(logfile_dir)

# log文件的全路径
logfile_path = os.path.join(logfile_dir, logfile_name)

# ****************注意3: log配置字典
LOGGING_DIC = {
    'version': 1,
    'disable_existing_loggers': False,
    'formatters': {
        'standard': {
            'format': standard_format
        },
        'simple': {
            'format': simple_format
        },
    },
    'filters': {},
    'handlers': {
        #打印到终端的日志
        'console': {
            'level': 'DEBUG',
            'class': 'logging.StreamHandler',  # 打印到屏幕
            'formatter': 'simple'
        },
        # 打印到文件的日志,收集info及以上的日志
        'default': {
            'level': 'DEBUG',
            'class': 'logging.handlers.RotatingFileHandler',  # 保存到文件(滚动保存,多个文件方式)
            'formatter': 'standard',
            'filename': logfile_path,  # 日志文件
            'maxBytes': 1024*1024*5,  # 日志大小 5M
            'backupCount': 5,  # 超过上面设置的5M,就创建一个新的备份,最高备份5个,超出会把第一个覆盖掉
            'encoding': 'utf-8',  # 日志文件的编码,再也不用担心中文log乱码了
        },
    },
    'loggers': {
        #logging.getLogger(__name__)拿到的logger配置
        '': {
            'handlers': ['default', 'console'],  # 这里把上面定义的两个handler都加上,即log数据既写入文件又打印到屏幕
            'level': 'DEBUG',
            'propagate': True,  # 向上(更高level的logger)传递
        },
    },
}


# 注意4:
def get_logger(user_type):
    # 1.加载log配置字典到logging模块的配置中
    logging.config.dictConfig(LOGGING_DIC)

    # 2.获取日志对象
    # logger = logging.getLogger('user')
    # logger = logging.getLogger('bank')
    # logger = logging.getLogger('shop')
    logger = logging.getLogger(user_type)
    return logger

# logging.config.dictConfig(LOGGING_DIC)
# # 调用获取日志函数的到日志对象
# logger = logging.getLogger('user')

# 通过logger日志对象,调用内部的日志打印
logger = get_logger('user')
# '只要思想不滑坡,方法总比问题多!'就是需要记录的日志信息
logger.info('学习不要浮躁,一步一个脚印!')
# logger.info('只要思想不滑坡,方法总比问题多!')

logging过滤器

# 下方为实例(两个log记录)
import logging
# 定义三种日志输出格式
standard_format ='[%(asctime)s][%(threadName)s:%(thread)d][task_id:%(name)s][%(filename)s:%(lineno)d]' \
                  '[%(levelname)s][%(message)s]' #其中name为getlogger指定的名字
simple_format = '[%(levelname)s][%(asctime)s][%(filename)s:%(lineno)d]%(message)s'
json_format = '{"parentSpanId":"-","level":%(levelname)s,"thread":%(threadName)s,"method":%(filename)s,"msg":%(message)s,' \
              '"date":%(asctime)s,"project":"agent","service":"agent-service"}'

class MyFilter(logging.Filter): # 定义过滤器
    def __init__(self, param=None):
        self.param = param

    def filter(self, record):
        if self.param is None:
            allow = True
        else:
            allow = self.param not in record.msg
        if allow:
            record.msg = 'changed: ' + record.msg   # 修改log记录的message信息
        return allow    # 返回true进行记录
        # return False    # 不记录入log

LOGGING_DIC = {
    'version': 1,
    'disable_existing_loggers': False,
    'formatters': {
        'standard': {
            'format': standard_format
        },
        'simple': {
            'format': simple_format
        },
        'json_format':{
            'format': json_format
        }
    },
    'filters': {
        'myfilter': {
                    '()': MyFilter,
                    'param': 'noshow',
                }
    },
    'handlers': {
        #打印到终端的日志
        'console': {
            'level': 'DEBUG',
            'class': 'logging.StreamHandler',  # 打印到屏幕
            'formatter': 'simple'
        },
        # 打印到文件的日志,收集info及以上的日志
        'default': {
            'level': 'WARNING',
            'class': 'logging.handlers.RotatingFileHandler',  # 保存到文件
            'formatter': 'standard',
            'filename': logfile_path,  # 日志文件
            'maxBytes': 1024*1024*5,  # 日志大小 5M
            'backupCount': 5,
            'encoding': 'utf-8',  # 日志文件的编码,
            'filters':['myfilter']
        },
        'json':{    # json格式,用于全链路记录
            'level': 'INFO',
            'class': 'logging.handlers.RotatingFileHandler',  # 保存到文件
            'formatter': 'json_format',
            'filename': json_logfile_path,  # 日志文件
            'maxBytes': 1024*1024*5,  # 日志大小 5M
            'backupCount': 5,
            'encoding': 'utf-8',  # 日志文件的编码
        }
    },
    'loggers': {
        #logging.getLogger(__name__)拿到的logger配置
        'agent': {
            'handlers': ['default', 'console'],  # 这里把上面定义的两个handler都加上,即log数据既写入文件又打印到屏幕
            'level': 'DEBUG',
            'propagate': True,  # 向上(更高level的logger)传递
        },
        'full_link':{
            'handlers': ['json'],  # 这里把上面定义的两个handler都加上,即log数据既写入文件又打印到屏幕
            'level': 'INFO',
            'propagate': True,  # 向上(更高level的logger)传递
        }
    },
}

 时间格式

# logging字典配置
standard_format ='[%(asctime)s][%(threadName)s:%(thread)d][task_id:%(name)s][%(filename)s:%(lineno)d]' \
                  '[%(levelname)s][%(message)s]' #其中name为getlogger指定的名字
simple_format = '[%(levelname)s][%(asctime)s][%(filename)s:%(lineno)d]%(message)s'
# 时间格式改为时间加上毫秒(3位)
json_format = '{"thread":"%(threadName)s",%(message)s,"date":"%(asctime)s:%(msecs)03d","project":"agent","service":"agent-service"}'

LOGGING_DIC = {
    'version': 1,
    'disable_existing_loggers': False,
    'formatters': {
        'standard': {
            'format': standard_format
        },
        'simple': {
            'format': simple_format
        },
        'json_format':{
            'format': json_format,
            'datefmt':'%Y-%m-%d %H:%M:%S'  # 时间格式修改
        }
    },
    'filters': {},
    'handlers': {
        #打印到终端的日志
        'console': {
            'level': 'DEBUG',
            'class': 'logging.StreamHandler',  # 打印到屏幕
            'formatter': 'simple'
        },
        # 打印到文件的日志,收集info及以上的日志
        'default': {
            'level': 'WARNING',
            'class': 'logging.handlers.RotatingFileHandler',  # 保存到文件
            'formatter': 'standard',
            'filename': logfile_path,  # 日志文件
            'maxBytes': 1024*1024*5,  # 日志大小 5M
            'backupCount': 5,
            'encoding': 'utf-8',  # 日志文件的编码,
        },
        'json':{    # json格式,用于全链路记录
            'level': 'INFO',
            'class': 'logging.handlers.RotatingFileHandler',  # 保存到文件
            'formatter': 'json_format',
            'filename': json_logfile_path,  # 日志文件
            'maxBytes': 1024*1024*5,  # 日志大小 5M
            'backupCount': 5,
            'encoding': 'utf-8',  # 日志文件的编码
        }
    },
    'loggers': {
        #logging.getLogger(__name__)拿到的logger配置
        'agent': {
            'handlers': ['default', 'console'],  # 这里把上面定义的两个handler都加上,即log数据既写入文件又打印到屏幕
            'level': 'DEBUG',
            'propagate': True,  # 向上(更高level的logger)传递
        },
        'full_link':{
            'handlers': ['json'],  # 这里把上面定义的两个handler都加上,即log数据既写入文件又打印到屏幕
            'level': 'INFO',
            'propagate': True,  # 向上(更高level的logger)传递
        }
    },
}

防止导入模块时自动执行测试功能

# 被导入模块(test1.py)
def func():
    print('from test1.func...')

# func()
# __name__属于模块名称空间中的一个名字
# 当我们执行该模块时就会产生
print(__name__)  # 在当前文件中名字为:__main__   被导入时: 模块的名字

# 注意: 记住--》 main + 回车键
if __name__ == '__main__':
    # 在此处对功能进行测试
    print('在当前模块下执行测试功能...')
    func()
else:
    print('当前模块已被导入...')
# 导入模块
import test1

 

 包的理论

- 夺命三问:
1.什么是包?
  包是一个带有__init__.py的文件夹,包也可以被导入,
  并且可以一并导入包下的所有模块。

2.为什么要使用包?
  包可以帮我们管理模块,在包中有一个__init__.py, 由它来帮我们管理模块。

3.怎么使用包?
  - import 包.模块名
    包.模块.名字

  - from 包 import 模块名

  - from 包.模块名 import 模块中的名字

- 导入包时发生的事情:
  1.当包被导入时,会以包中的__init__.py来产生一个名称空间。
  2.然后执行__init__.py文件, 会将__init__.py中的所有名字添加到名称空间中。
  3.接着会将包下所有的模块的名字加载到__init__.py产生的名称空间中。
  4.导入的模块指向的名称空间其实就是__init__.py产生的名称空间中。

posted @ 2019-11-19 19:50  战斗小人  阅读(514)  评论(1编辑  收藏  举报