第十七天(最后的模块)

 

第十七天(最后的模块)

subprocess sob:子 process:进程

可以通过python代码给操作系统终端发送命令,并且可以返回结果。
import subprocess
while True:
   # 让用户输入终端命令
   cmd_str = input('终端命令:').strip()
   # Popen(cmd命令, shell=True,
   # stdout=subprocess.PIPE,
   # stderr=subprocess.PIPE)
   # 调用Popen就会将用户的终端命令发送给本地操作系统的终端
   # 得到一个对象,对象中包含着正确或错误的结果。
   obj = subprocess.Popen(
       cmd_str, shell=True,
       stdout=subprocess.PIPE,
       stderr=subprocess.PIPE
  )
   success = obj.stdout.read().decode('gbk')
   if success:
       print(success, '正确')
   error = obj.stderr.read().decode('jbk')
   if error:
       print(error, '错误')

re模块

什么事正则表达式与re模块?

正则表达式:

正则表达式是一门独立的技术,任何语言都可以使用正则表达式,

正则表达式是由一堆可是的字符组合而来的

字符组, 元子组, 组合使用

re模块:

在python中,若想使用正则表达式,必须通过re模块来实现


为什么要使用正则表达式?

比如要获取‘一堆字符串’中的‘某个字符’,

正则表达式可以帮助我们过滤,并提取出想要的字符数据。

 

比如过滤兵获取‘jinyi’

'eqafaweirjq3525jqfaoajinyieqrqerqr32erg34tqwfdafads'

应用场景:

爬虫:re, BeautifulSoup4, Xpath, selector

数据分析过滤数据: re, pandas, numpy...

用户名与密码、手机认证:检测输入内容的合法性


如何使用: import re


 

# 检测手机号码的合法性:
# 纯python校验
# 需求: 11位,开头13/14/15/19
# while True:
#     phone = input('请输入手机号:').strip()
#     if len(phone) == 11 and (phone.startswith(
#         '13'
#     )or phone.startswith(
#         '14'
#     )or phone.startswith(
#         '15'
#     )or phone.startswith(
#         '19'
#     )):
#         print('可以使用')
#     else:
#         print('不可以使用')


# 使用re校验
# import re
# while True:
#     phone = input('请输入手机号:').strip()
#     # 参数1:正则表达式 参数2:需要过滤的字符串
#     # ^:代表开头 $:代表结束   |:代表或
#     # (13|14):可以获取一个值,判断是否是13或14
#     # {2}:需要获取两个值 限制数量
#     # []:分组限制取值范围
#     # [0-9]:限制只能取0到9范围中的字符
#     if re.match('^(13|14|15|19)[0-9]{9}$', phone):
#         print('合法')
#     else:
#         print('不合法')


# - 字符组:
#   - [0-9] 可以匹配到一个0-9的字符
#   - [9-0]: 报错, 必须从小到大
#   - [a-z]: 从小写的a-z
#   - [A-Z]: 从大写A-Z
#   - [z-A]: 错误, 只能从小到大,根据ascii表来匹配大小。
#   - [A-z]: 总大写的A到小写的z。
#
#   注意: 顺序必须要按照ASCII码数值的顺序编写



# import re
# res = re.match('[A-Za-z0-9]{2}', 'jinyi0128')
# print(res)
# print(res.group())

'''
- 元字符:
  *******根据博客的表格来记 (看一眼)
  https://images2015.cnblogs.com/blog/1036857/201705/1036857-20170529203214461-666088398.png

  - 组合使用
    - \w\W: 匹配字母数字下划线与非字母数字下划线,匹配所有。
    - \d\D: 无论是数字或者非数字都可以匹配。
    - \t: table
    - \n: 换行
    - \b: 匹配单词结尾,tank jasonk
    - ^: startswith
          - '^'在外面使用: 表示开头。
          - [^]: 表示取反的意思。

    - $: endswith

    - ^$: 配合使用叫做精准匹配,如何限制一个字符串的长度或者内容。
    - |: 或。ab|abc如果第一个条件成立,则abc不会执行,怎么解决,针对这种情况把长的写在前面就好了,一定要将长的放在前面。
    - [^...]: 表示取反的意思。
    - [^ab]: 代表只去ab以外的字符。
    - [^a-z]: 取a-z以外的字符。
'''

'''
re模块三种比较重要的方法:
  - findall(): ----> []
      可以匹配 "所有字符" ,拿到返回的结果,返回的结果是一个列表。
      'awfwaghowiahioawhio' # a
      ['a', 'a', 'a', 'a']

  - search():----> obj ----> obj.group()
      'awfwaghowiahioawhio' # a
      在匹配一个字符成功后,拿到结果后结束,不往后匹配。
      'a'

  - match():----> obj ----> obj.group()
      'awfwaghowiahioawhio' # a
      'a'
      'wfwaghowiahioawhio' # a
        None
      从匹配字符的开头匹配,若开头不是想要的内容,则返回None。
'''

import re
s1 = 'jinyi wnaglu zhaoqiao 0128'
# # findall
# res = re.findall('[a-z]{4}', s1)
# print(res)

# search
# res = re.search('[a-z]{4}', s1)
# print(res)
# print(res.group())

# # match
# res = re.match('i', s1)
# if res:
#     print(res.group())

 

爬取电影信息


 

'''
爬取豆瓣TOP250电影信息

  第1页:
      https://movie.douban.com/top250?start=0&filter=

  ...

  第9页:
      https://movie.douban.com/top250?start=200&filter=

  第10页:
      https://movie.douban.com/top250?start=225&filter=

爬蟲四部原理:
  1.发送请求: requests
  2.获取响应数据: 对方机器直接返回的
  3.解析并提取想要的数据: re
  4.保存提取后的数据: with open()

爬蟲三部曲:
  1.发送请求
  2.解析数据
  3.保存数据


# 往10个链接发送请求获取响应数据
  - requests模块 ---》 请求库
'''
import requests
import re


# 爬蟲三部曲:
# 1.发送请求
def get_page(url):
   response = requests.get(url)
   # response.content # 获取二进制流数据,比如图片、视频、音频
   # response.text # 获取响应文本,比如html代码
   return response


# 2.解析数据
# 伪代码:
# response = get_page('url地址')
# parser_page(response.text)
def parser_page(text):  # response.text
   # re.findall('正则表达式', '过滤的文本')
   res_list = re.findall(
       '<div class="item">.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人评价',
       text,
       re.S)

   for movie_tuple in res_list:
       # print(movie_tuple)
       yield movie_tuple


# 3.保存数据
# 伪代码:
# res_list = parser_page(text)
# save_data(res_list)
def save_data(res_list_iter):
   with open('douban.txt', 'a', encoding='utf-8') as f:
       for movie_tuple in res_list_iter:
           movie_url, movie_name, movie_point, movie_num = movie_tuple
           # 写入文件前的模样
           str1 = f'''
          电影地址: {movie_url}
          电影名字: {movie_name}
          电影评分: {movie_point}
          评价人数: {movie_num}
          '''
           f.write(str1)


# 获取10个链接
n = 0
for line in range(10):
   url = f'https://movie.douban.com/top250?start={n}&filter='
   n += 25
   print(url)

   response = get_page(url)
   res_list_iter = parser_page(response.text)
   # print(res_list_iter)
   save_data(res_list_iter)

logging模块


 

logging模块的使用
      - 是用来记录日志的模块,一般记录用户在软件中的操作。
      def get_logger(user_type):
           # 1.加载log配置字典到logging模块的配置中
           logging.config.dictConfig(LOGGING_DIC)

           # 2.获取日志对象
           logger = logging.getLogger(user_type)
           return logger

      logger = get_logger('user')
      logger.info('日志消息')

   4.防止导入模块时自动执行测试功能
       if __name__ == '__main__':
           执行测试模块

 

 

 

# logging的配置信息
"""
logging配置
"""
import os

import logging.config

# 定义三种日志输出格式 开始
standard_format = '[%(asctime)s][%(threadName)s:%(thread)d][task_id:%(name)s][%(filename)s:%(lineno)d]' \
                 '[%(levelname)s][%(message)s]' #其中name为getlogger指定的名字

simple_format = '[%(levelname)s][%(asctime)s][%(filename)s:%(lineno)d]%(message)s'

id_simple_format = '[%(levelname)s][%(asctime)s] %(message)s'

# 定义日志输出格式 结束
# ****************注意1: log文件的目录
BASE_PATH = os.path.dirname(os.path.dirname(__file__))
logfile_dir = os.path.join(BASE_PATH, 'log_dir')
# print(logfile_dir)

# ****************注意2: log文件名
logfile_name = 'user.log'

# 如果不存在定义的日志目录就创建一个
if not os.path.isdir(logfile_dir):
   os.mkdir(logfile_dir)

# log文件的全路径
logfile_path = os.path.join(logfile_dir, logfile_name)

# ****************注意3: log配置字典
LOGGING_DIC = {
   'version': 1,
   'disable_existing_loggers': False,
   'formatters': {
       'standard': {
           'format': standard_format
      },
       'simple': {
           'format': simple_format
      },
  },
   'filters': {},
   'handlers': {
       #打印到终端的日志
       'console': {
           'level': 'DEBUG',
           'class': 'logging.StreamHandler',  # 打印到屏幕
           'formatter': 'simple'
      },
       # 打印到文件的日志,收集info及以上的日志
       'default': {
           'level': 'DEBUG',
           'class': 'logging.handlers.RotatingFileHandler',  # 保存到文件
           'formatter': 'standard',
           'filename': logfile_path,  # 日志文件
           'maxBytes': 1024*1024*5,  # 日志大小 5M
           'backupCount': 5,
           'encoding': 'utf-8',  # 日志文件的编码,再也不用担心中文log乱码了
      },
  },
   'loggers': {
       #logging.getLogger(__name__)拿到的logger配置
       '': {
           'handlers': ['default', 'console'],  # 这里把上面定义的两个handler都加上,即log数据既写入文件又打印到屏幕
           'level': 'DEBUG',
           'propagate': True,  # 向上(更高level的logger)传递
      },
  },
}


# 注意4:
def get_logger(user_type):
   # 1.加载log配置字典到logging模块的配置中
   logging.config.dictConfig(LOGGING_DIC)

   # 2.获取日志对象
   # logger = logging.getLogger('user')
   # logger = logging.getLogger('bank')
   # logger = logging.getLogger('shop')
   logger = logging.getLogger(user_type)
   return logger

# logging.config.dictConfig(LOGGING_DIC)
# # 调用获取日志函数的到日志对象
# logger = logging.getLogger('user')

# 通过logger日志对象,调用内部的日志打印
logger = get_logger('user')
# '只要思想不滑坡,方法总比问题多!'就是需要记录的日志信息
logger.info('学习不要浮躁,一步一个脚印!')
# logger.info('只要思想不滑坡,方法总比问题多!')

防止导入模板时自动执行测试功能

 


def func():
   print('from test1.func...')


# func()
# __name__属于模块名称空间中的一个名字
# 当我们执行该模块时就会产生
print(__name__)  # 在当前文件中名字为:__main__   被导入时: 模块的名字

# 注意: 记住--》 main + 回车键
if __name__ == '__main__':
   # 在此处对功能进行测试
   print('在当前模块下执行测试功能...')
   func()
else:
   print('当前模块已被导入...')

 

posted @ 2019-11-25 18:39  迎着阳光  阅读(168)  评论(0编辑  收藏  举报