常用内置模块与包

常用内置模块与包

常用内置模块与包

内置模块都是Python内部提供的
要学习Python内置的规则

一、subprocess模块

可以通过Python代码给操作系统终端发送命令，并且可以返回结果
sub：子
process：进程

import subprocess
while True:
    # 1.让用户输入终端命令
    cmd_str = input('请输入终端命令：').strip()
    # Popen(cmd命令，shell=True，
    # stdout=subprocess.PIPE,stderr=subprocess.PIPE)
    # 调用Popen就会将用户的终端命令发送给本地操作系统的终端
    # 得到一个对象，对象中包含着正确或者错误的结果
    obj = subprocess.Popen(
        cmd_str,shell=True,
        stdout=subprocess.PIPE, # 配置一个输入正确的结果
        stderr=subprocess.PIPE  # 配置一个输入错误的结果
    )
    success = obj.stdout.read().decode('gbk')
    if success:
        print(success)
    error = obj.stdout.read().decode('gbk')
    if error:
        print(error)

二、re模块

什么是正则表达式与re模块？
- 正则表达式
  - 正则表达式是一门独立的技术，任何语言都可以使用正则表达式，正则表达式是由一堆特殊的字符组合而来的
  - 字符串和元字符组合使用
- re模块
  - 在python中，若想要使用正则表达式，必须通过re模块来实现
为什么要使用正则表达式？
- 正则表达式可以帮我们过滤并提取出想要的字符数据
- 比如要获取“一堆字符串”中的“某些字符”
- 应用场景：
  - 爬虫：re，BeautifulSoup4，Xpath，selector
  - 数据分析过滤数据：re，pandas，numpy
  - 用户名与密码，手机认证：检测输入内容的合法性
如何使用
- import re

检测手机号(这是使用if判断)：

检测手机号码的合法性需求：11位、以开头13/14/15/17/18/19

while True:
    telephone_number = input('请输入手机号：').strip()
    if len(telephone_number) == 11 and 
    (telephone_number.startswith('13')
    or telephone_number.startswith('14')
    or telephone_number.startswith('15')
    or telephone_number.startswith('17')
    or telephone_number.startswith('18')
    or telephone_number.startswith('19')):
        print('手机号码合法')
        break
    else:
        print('手机号码不合法')

这是用re效验

import re
while True:
    telephone_number = input('请输入手机号码：').strip()
    # 参数1：正则表达式 ''
    # 参数2；需要过滤的字符串
    if re.match('^(13|14|15|17|18|19)[0-9]{9}$', telephone_number):
        print('手机号码合法')
        break
    else:
        print('手机号码不合法')

与上面if语句判断，优缺点一目了然

字符组:
  - [0-9] 可以匹配到一个0-9的字符
  - [9-0]: 报错, 必须从小到大
  - [a-z]: 从小写的a-z
  - [A-Z]: 从大写A-Z
  - [z-A]: 错误, 只能从小到大，根据ascii表来匹配大小。
  - [A-z]: 总大写的A到小写的z。

  注意: 顺序必须要按照ASCII码数值的顺序编写。

元字符地址：https://images2015.cnblogs.com/blog/1036857/201705/1036857-20170529203214461-666088398.png

组合使用
      - \w\W: 匹配字母数字下划线与非字母数字下划线，匹配所有。
      - \d\D: 无论是数字或者非数字都可以匹配。
      - \t: table
      - \n: 换行
      - \b: 匹配单词结尾，tank  jasonk
      - ^: startswith
            - '^'在外面使用: 表示开头。
            - [^]: 表示取反的意思。
            
      - $: endswith
        
      - ^$: 配合使用叫做精准匹配，如何限制一个字符串的长度或者内容。
      - |: 或。ab|abc如果第一个条件成立，则abc不会执行，怎么解决，针对这种情况把长的写在前面就好了，一定要将长的放在前面。
      - [^...]: 表示取反的意思。
      - [^ab]: 代表只去ab以外的字符。
      - [^a-z]: 取a-z以外的字符。

re模块三种比较重要的方法：

findall()：——> [ ]
- 可以匹配“所有字符”，拿到返回的结果，返回的结果是一个列表
search()：——>obj——>obj.group()
- 在匹配一个字符成功后，拿到结果后结束，不往后匹配
match()：——>obj——>obj.group()
- 从匹配字符的开头匹配，若开头不是想要的内存，则返回None

findall

str1 = 'sean tank yang'
# findall
res = re.findall('[a-z]{4}', str1)
print(res)	#返回的是列表可以直接输出结果
['sean', 'tank', 'yang']

search

# search
res = re.search('[a-z]{4}', str1)
print(res)
print(res.group())
<_sre.SRE_Match object; span=(0, 4), match='sean'>
sean	# 成功匹配一个以后，结束，不再往后匹配

match

# match
res = re.match('sean', str1)
print(res)
print(res.group())
<_sre.SRE_Match object; span=(0, 4), match='sean'>
sean	#如果开头是'sean' 就返回结果，如果不是将返回None且报错
# 避免报错的方法
res = re.match('tank', str1)
if res:
    print(res.group())

三、简单了解爬虫

爬虫四部原理
- 发送请求：requests
- 获取响应数据：对方机器直接返回的
- 解析并提取想要的数据：re
- 保存提取后的数据：with open()
爬虫三部曲
- 发送请求
- 解析数据
- 保存数据

import requests
import re

# 1.发送请求
def get_page(url):
    response = requests.get(url)
    return response

# 伪代码：
# response = get_page('url地址')
# parser_page(response,text)
# 2.解析数据
def parser_page(text):  #response.text
    # re.findall('正则表达式','过滤的文本')
    res_list = re.findall('<div class="item">.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人评价'
                          , text)
    for movie_tuple in res_list:
        yield movie_tuple


# 3.保存数据
# 伪代码
# res_list = parser_page(text)
# save_data(res_list)
def save_data(res_list_iter):
    with open('douban.txt', 'a', encoding='utf-8')as f:
        for movie_tuple in res_list_iter:
            movie_url, movie_name, movie_point, movie_num = movie_tuple
            str1 = f"""
            电影地址:{movie_url}
            电影名字:{movie_name}
            电影评分:{movie_point}
            评价人数:{movie_num}
            """
            f.write(str1)


n = 0
for line in range(10):
    url = f'https://movie.douban.com/top250?start={n}&filter='
    n += 25
    print(url)

    response = get_page(url)
    res_list_iter = parser_page(response.text)
    save_data(res_list_iter)

四、logging模块

用来记录日志的模块，一般记录用户在软件中的操作

import os
import logging.config
# 定义三种日志输出格式
standard_format = '[%(asctime)s][%(threadName)s:%(thread)d][task_id:%(name)s][%(filename)s:%(lineno)d]' \
                  '[%(levelname)s][%(message)s]' #其中name为getlogger指定的名字

simple_format = '[%(levelname)s][%(asctime)s][%(filename)s:%(lineno)d]%(message)s'

id_simple_format = '[%(levelname)s][%(asctime)s] %(message)s'
# 定义日志输出格式
# 注意1: log文件的目录
BASE_PATH = os.path.dirname(os.path.dirname(__file__))
logfile_dir = os.path.join(BASE_PATH, 'log_dir')
# print(logfile_dir)

# 注意2: log文件名
logfile_name = 'user.log'
# 如果不存在定义的日志目录就创建一个
if not os.path.isdir(logfile_dir):
    os.mkdir(logfile_dir)

# log文件的全路径
logfile_path = os.path.join(logfile_dir, logfile_name)

# 注意3:log配置字典
LOGGING_DIC = {
    'version': 1,
    'disable_existing_loggers': False,
    'formatters': {
        'standard': {
            'format': standard_format
        },
        'simple': {
            'format': simple_format
        },
    },
    'filters': {},
    'handlers': {
        #打印到终端的日志
        'console': {
            'level': 'DEBUG',
            'class': 'logging.StreamHandler',  # 打印到屏幕
            'formatter': 'simple'
        },
        # 打印到文件的日志,收集info及以上的日志
        'default': {
            'level': 'DEBUG',
            'class': 'logging.handlers.RotatingFileHandler',  # 保存到文件
            'formatter': 'standard',
            'filename': logfile_path,  # 日志文件
            'maxBytes': 1024*1024*5,  # 日志大小 5M
            'backupCount': 5,
            'encoding': 'utf-8',  # 日志文件的编码，再也不用担心中文log乱码了
        },
    },
    'loggers': {
        #logging.getLogger(__name__)拿到的logger配置
        '': {
            'handlers': ['default', 'console'],  # 这里把上面定义的两个handler都加上，即log数据既写入文件又打印到屏幕
            'level': 'DEBUG',
            'propagate': True,  # 向上（更高level的logger）传递
        },
    },
}

# 注意4：
def get_logger(user_type):
    # 1.加载log配置字典到loggin模块的配置中
    logging.config.dictConfig(LOGGING_DIC)
    # 2. 获取日志对象
    logger = logging.getLogger(user_type)
    return logger

logger = get_logger('user')
logger.info('只要思想不滑坡，方法总比问题多')

五、包的理论

什么是包？
- 包是一个带有__init__.py的文件夹，包也可以被导入，并且可以一并导入包下的所有模块
为什么要使用包？
- 包可以帮我们管理模块，在包中有一个__init__.py，由它来帮助我们管理模块
怎么使用包？
- import 包.模块名
- form 包 import 模块名
- from 包.模块名 import 模块中的名字
导入包时发生的事情：
- 当包被导入时，会以包中的__init__.py来产生一个名称空间
- 然后执行__init__.py文件，会将__init__.py中所有的名字添加到名称空间中
- 接着会将包下所有模块的名字加载到__init__.py产生的名称空间中
- 导入的模块指向的名称空间其实就是__init__.py产生的名称空间中

补充

防止导入模块时自动执行测试功能

# 在被导入模块中使用main，防止检测时自动执行代码
if __name__ == '__main__':
    print('from aaa...')

posted @ 2019-11-29 19:07 YGZICO 阅读(233) 评论(0) 收藏举报

YGZICO

常用内置模块与包

常用内置模块与包

一、subprocess模块

二、re模块

三、简单了解爬虫

四、logging模块

五、包的理论

补充

公告