python语法之常用内置模块2

一、subprocess模块

可以通过python代码给操作系统终端发送指令,并且可以返回结果。

subprocess“

 sub: 子

process: 进程

import subprocess
while True:
    #1、让用户输入终端命令
    cmd_str = input('请输入终端命令:').strip()
    #Popen(cmd命令,shell=True,stdout=subprocess.PIPE,stderr=subprocess.PIPE)
    #调用Popen就会将用户的终端命令发送给本地操作系统的终端
    #得到一个对象,对象中包含着正确或错误的结果。

    obj = subprocess.Popen(
        cmd_str, shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE
    )
    success = obj.stdout.read().decode('gbk')
    if success:
        print(success, '正确的结果')

    error = obj.stderr.read().encode('gbk')
    if error:
        print(error, '错误的结果')

 

二、re模块

1、什么是正则表达式与re模块?

正则表达式:是一门独立的技术,任何语言都可以使用,是由一堆特殊字符组合而来的。

re模块:在python中,若想使用正则表达式,必须通过re模块来实现。

 

2、为什么要使用正则?

比如要获取“一堆字符串”中的“某些字符”,

正则表达式可以帮我们过滤,并提取出想要的字符数据。

# 比如过滤并获取 “tank”

'wafawrjkwagfiu21knriut8ankjfdgau0q92ru20yrisana tank wyqfwqrqyr9q 9'

 

3、应用场景:

- 爬虫: re, BeautifulSoup4, Xpath, selector

- 数据分析过滤数据: re, pandas, numpy...

- 用户名与密码、手机认证:检测输入内容的合法性

 - 用户名: na tank

 

4、如何使用?
import re

5、re模块三种比较重要的方法:

- findall(): ----> []
可以匹配 "所有字符" ,拿到返回的结果,返回的结果是一个列表。
'awfwaghowiahioawhio' # a
['a', 'a', 'a', 'a']

- search():----> obj ----> obj.group()
'awfwaghowiahioawhio' # a
在匹配一个字符成功后,拿到结果后结束,不往后匹配。
'a'

- match():----> obj ----> obj.group()
'awfwaghowiahioawhio' # a
'a'
'wfwaghowiahioawhio' # a
None
从匹配字符的开头匹配,若开头不是想要的内容,则返回None。

import re
str1 = 'sean tank json'
#findall
res = re.findall('[a-z]{4}', str1)
print(res)
print(res.group())
# search
res = re.search('[a-z]{2}', str1)
print(res)
print(res.group())
#match
res = re.match('[a-z]{4}', str1)
print(res)
print(res.group())


6、
- 字符组:
- [0-9] 可以匹配到一个0-9的字符
- [9-0]: 报错, 必须从小到大
- [a-z]: 从小写的a-z
- [A-Z]: 从大写A-Z
- [z-A]: 错误, 只能从小到大,根据ascii表来匹配大小。
- [A-z]: 总大写的A到小写的z。

注意: 顺序必须要按照ASCII码数值的顺序编写。

# 1、检测手机号码的合法性:
# 纯python校验
# 需求: 11位、开头13/14/15/19
#     # 需求: 11位、开头13/14/15/19
#     # 参数1: 正则表达式  ''
#     # 参数2: 需要过滤的字符串
#     # ^: 代表“开头”
#     # $: 代表“结束”
#     # |: 代表“或”
#     # (13|14): 可以获取一个值,判断是否是13或14.
#     # {1}: 需要获取1个值 限制数量
#     # []: 分组限制取值范围
#     # [0-9]: 限制只能获取0——9的某一个字符。


import re
while True:
    phone_number = input('请输入手机号:').strip()
    if re.match('^(13|14|15|19) [0-9]{9}$', phone_number):
        print('合法')
        break
    else:
        print('不合法')

 

三、爬虫
'''
爬取豆瓣TOP250电影信息
    第1页:
        https://movie.douban.com/top250?start=0&filter=
    ...
    第9页:
        https://movie.douban.com/top250?start=200&filter=
    第10页:
        https://movie.douban.com/top250?start=225&filter=
爬蟲四部原理:
    1.发送请求: requests
    2.获取响应数据: 对方机器直接返回的
    3.解析并提取想要的数据: re
    4.保存提取后的数据: with open()
爬蟲三部曲:
    1.发送请求
    2.解析数据
    3.保存数据
# 往10个链接发送请求获取响应数据
    - requests模块 ---》 请求库
'''
import requests
import re
# 爬蟲三部曲:
# 1.发送请求
def get_page(url):
    response = requests.get(url)
    # response.content  # 获取二进制流数据,比如图片、视频、音频
    # response.text  # 获取响应文本,比如html代码
    return response

# 2.解析数据
# 伪代码:
# response = get_page('url地址')
# parser_page(response.text)
def parser_page(text):
    res_list = re.findall('<div class="item">.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人评价', text, re.S)
    for move_tuple in res_list:
        #print(movie_tuple)
        yield move_tuple

#3.保存数据
# 伪代码:
# res_list = parser_page(text)
# save_data(res_list)
def save_data(res_list_iter): 
  with open(
'douban.txt','a', encoding='utf-8')as f:
    for movie_tuple in res_list_iter:
      movie_url, movie_name, movie_point, movie_num
= movie_tuple

    #写入文件前的模样
    str1 = f'''
       电影地址:{movie_url}
      电影名字:{movie_name}
      电影评分:{movie_point}
      评价人数:{movie_num}
    '''
    f.write(str1)

#获取10个链接
n = 0 for line in range(10):
url
= f'https://movie.douban.com/top250?start={n}&filter='
n
+= 25

print(url)
response
= get_page(url)
res_list_iter
= parser_page(response.text)

# print(res_list_iter)
save_data(res_list_iter)

 

四、logging模块
是用来记录日志的模块,一般记录用户在软件中的操作。
# logging的配置信息
"""
logging配置
"""
import os

import logging.config

# 定义三种日志输出格式 开始
standard_format = '[%(asctime)s][%(threadName)s:%(thread)d][task_id:%(name)s][%(filename)s:%(lineno)d]' \
                  '[%(levelname)s][%(message)s]' #其中name为getlogger指定的名字

simple_format = '[%(levelname)s][%(asctime)s][%(filename)s:%(lineno)d]%(message)s'

id_simple_format = '[%(levelname)s][%(asctime)s] %(message)s'

# 定义日志输出格式 结束
# ****************注意1: log文件的目录  重点
BASE_PATH = os.path.dirname(os.path.dirname(__file__))
logfile_dir = os.path.join(BASE_PATH, 'log_dir')
print(logfile_dir)

# ****************注意2: log文件名  重点
logfile_name = 'user.log'

# 如果不存在定义的日志目录就创建一个
if not os.path.isdir(logfile_dir):
    os.mkdir(logfile_dir)

# log文件的全路径
logfile_path = os.path.join(logfile_dir, logfile_name)

# ****************注意3: log配置字典
LOGGING_DIC = {
    'version': 1,
    'disable_existing_loggers': False,
    'formatters': {
        'standard': {
            'format': standard_format
        },
        'simple': {
            'format': simple_format
        },
    },
    'filters': {},
    'handlers': {
        #打印到终端的日志
        'console': {
            'level': 'DEBUG',
            'class': 'logging.StreamHandler',  # 打印到屏幕
            'formatter': 'simple'
        },
        # 打印到文件的日志,收集info及以上的日志
        'default': {
            'level': 'DEBUG',
            'class': 'logging.handlers.RotatingFileHandler',  # 保存到文件
            'formatter': 'standard',
            'filename': logfile_path,  # 日志文件
            'maxBytes': 1024*1024*5,  # 日志大小 5M
            'backupCount': 5,
            'encoding': 'utf-8',  # 日志文件的编码,再也不用担心中文log乱码了
        },
    },
    'loggers': {
        #logging.getLogger(__name__)拿到的logger配置
        '': {
            'handlers': ['default', 'console'],  # 这里把上面定义的两个handler都加上,即log数据既写入文件又打印到屏幕
            'level': 'DEBUG',
            'propagate': True,  # 向上(更高level的logger)传递
        },
    },
}


#   ****************注意4: 重点
def get_logger(user_type):
    # 1.加载log配置字典到logging模块的配置中
    logging.config.dictConfig(LOGGING_DIC)

    # 2.获取日志对象
    # logger = logging.getLogger('user')
    # logger = logging.getLogger('bank')
    # logger = logging.getLogger('shop')
    logger = logging.getLogger(user_type)
    return logger

logging.config.dictConfig(LOGGING_DIC)
# 调用获取日志函数的到日志对象
logger = logging.getLogger('user')

# 通过logger日志对象,调用内部的日志打印
logger = get_logger('user')
# '只要思想不滑坡,方法总比问题多!'  就是需要记录的日志信息
logger.info('学习不要浮躁,一步一个脚印!')
logger.info('只要思想不滑坡,方法总比问题多!')


posted @ 2019-11-19 17:19  小猪皮蛋  阅读(211)  评论(0编辑  收藏  举报