[python]《Python编程快速上手:让繁琐工作自动化》学习笔记1

1. 模式匹配与正则表达式笔记（第7章）(代码下载)

正则表达式，又称规则表达式。（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

1.1 正则表达式匹配步骤
虽然在Python 中使用正则表达式有几个步骤，但每一步都相当简单。

用import re 导入正则表达式模块。
用re.compile()函数创建一个Regex 对象（记得使用原始字符串）。
向Regex 对象的search()方法传入想查找的字符串。它返回一个Match 对象。
调用Match 对象的group()方法，返回实际匹配文本的字符。

# 用import re 导入正则表达式模块
import re
# 创建了一个Regex对象
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
# 匹配字符串
mo = phoneNumRegex.search('My number is 415-555-4242.')
# group()方法返回实际匹配的字符串
print('phone num found is: ' + mo.group())

phone num found is: 415-555-4242

1.2 正则表达式匹配更多模式

利用括号分组
添加括号将在正则表达式中创建“分组”(\d\d\d)-(\d\d\d-\d\d\d\d)。然后可以使用group()匹配对象方法，从一个分组中获取匹配的文本。
用管道匹配多个分组
字符|称为“管道”。希望匹配许多表达式中的一个时，就可以使用它。例如，正则表达式r’Batman|Tina Fey’将匹配’Batman’或’Tina Fey’。
用问号实现可选匹配
有时候，想匹配的模式是可选的。就是说，不论这段文本在不在，正则表达式都会认为匹配。字符?表明它前面的分组在这个模式中是可选的。也可以理解为匹配这个问号之前的分组零次或一次。
用星号匹配零次或多次
*（称为星号）意味着“匹配零次或多次”，即星号之前的分组，可以在文本中出现任意次。它可以完全不存在，或一次又一次地重复。
用加号匹配一次或多次
加号+前面的分组必须“至少出现一次
用花括号匹配特定次数
- 如果想要一个分组重复特定次数，就在正则表达式中该分组的后面，跟上花括号包围的数字。例如，正则表达式(Ha){3}将匹配字符串’HaHaHa’。
- 除了一个数字，还可以指定一个范围，即在花括号中写下一个最小值、一个逗号和一个最大值。例如，正则表达式(Ha){1,2}将匹配 ‘Ha’ 和 ‘HaHa’。
- 也可以不写花括号中的第一个或第二个数字，不限定最小值或最大值。例如，(Ha){3,}将匹配3 次或更多次实例。
用花括号和问号匹配非贪心模式
Python 的正则表达式默认是“贪心”的，这表示在有二义的情况下，它们会尽可能匹配最长的字符串。花括号的“非贪心”版本匹配尽可能最短的字符串，即在
结束的花括号后跟着一个问号。

1.3 findall()方法
search()将返回一个Match对象，包含被查找字符串中的“第一次”匹配的文本，而findall()方法将返回一组字符串，包含被查找字符串中的所有匹配。

import re
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
# search返回第一次匹配
mo = phoneNumRegex.search('Cell: 415-555-9999 Work: 212-555-0000')
mo.group()

'415-555-9999'

# findall返回所有结果
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-0000')

['415-555-9999', '212-555-0000']

1.4 字符分类

缩写字符分类	表示
\d	0 到9 的任何数字
\D	除0 到9 的数字以外的任何字符
\w	任何字母、数字或下划线字符（可以认为是匹配“单词”字符）
\W	除字母、数字和下划线以外的任何字符
\s	空格、制表符或换行符（可以认为是匹配“空白”字符）
\S	除空格、制表符和换行符以外的任何字符

1.5 建立自己的字符分类

有时候你想匹配一组字符，但缩写的字符分类（\d、\w、\s 等）太宽泛。你可
以用方括号定义自己的字符分类。例如，字符分类[aeiouAEIOU]将匹配所有元音字
符，不论大小写。

import re
vowelRegex = re.compile(r'[aeiouAEIOU]')
vowelRegex.findall('RoboCop eats baby food. BABY FOOD.')

['o', 'o', 'o', 'e', 'a', 'a', 'o', 'o', 'A', 'O', 'O']

可以使用短横表示字母或数字的范围。例如，字符分类[a-zA-Z0-9]将匹配所有小写字母、大写字母和数字。

import re
vowelRegex = re.compile(r'[a-zA-Z0-9]')
vowelRegex.findall('RoboCop eats baby food. BABY FOOD.')

['R',
 'o',
 'b',
 'o',
 'C',
 'o',
 'p',
 'e',
 'a',
 't',
 's',
 'b',
 'a',
 'b',
 'y',
 'f',
 'o',
 'o',
 'd',
 'B',
 'A',
 'B',
 'Y',
 'F',
 'O',
 'O',
 'D']

通过在字符分类的左方括号后加上一个插入字符（^），就可以得到“非字符类”。非字符类将匹配不在这个字符类中的所有字符。

import re
consonantRegex = re.compile(r'[^aeiouAEIOU]')
consonantRegex.findall('RoboCop eats baby food. BABY FOOD.')

['R',
 'b',
 'C',
 'p',
 ' ',
 't',
 's',
 ' ',
 'b',
 'b',
 'y',
 ' ',
 'f',
 'd',
 '.',
 ' ',
 'B',
 'B',
 'Y',
 ' ',
 'F',
 'D',
 '.']

插入字符和美元字符
正则表达式的开始处使用插入符号（^），表明匹配必须发生在被查找文本开始处。
正则表达式的末尾加上美元符号，表示该字符串必须以这个正则表达式的模式结束。可以同时使用^和$，表明整个字符串必须匹配该模式。

1.6 通配字符

.(句点)字符称为“通配符”。它匹配除了换行之外的所有字符。
用点-星（.*）表示“任意文本”。
通过传入re.DOTALL 作为re.compile()的第二个参数，可以让句点字符匹配所有字符，包括换行字符。

1.7 正则表达式符号总结

1.8 sub() 替换字符串

Regex对象的sub()方法需要传入两个参数。第一个参数是一个字符串，用于取代发现的匹配。第二个参数是一个字符串，即正则表达式。sub()方法返回替换完成后的字符串。

import re
namesRegex = re.compile(r'Agent \w+')
namesRegex.sub('CENSORED', 'Agent Alice gave the secret documents to Agent Bob.')

'CENSORED gave the secret documents to CENSORED.'

1.9 compile的第二个参数

re.IGNORECASE 忽视大小写
re.VERBOSE 编写注释
re.DOTALL 句点表示所有字符（没有这个则表示除换行符外的所有字符）

2. 项目练习

2.1 电话号码和E-mail 地址提取程序

功能：在剪贴板的文本中查找电话号码和E-mail 地址，按一下Ctrl-A 选择所有文本，按下Ctrl-C 将它复制到剪贴板，然后运行程序。找到电话号码和E-mail地址，替换掉剪贴板中的文本。
文本例子地址：http://www.nostarch.com/contactus

主要步骤:
第1步：为电话号码创建一个正则表达式
第2步：为E-mail 地址创建一个正则表达式
第3步：在剪贴板文本中找到所有匹配
第4步：所有匹配连接成一个字符串，复制到剪贴板

#! python3
# Finds phone numbers and email addresses on the clipboard.
# text:
'''
Contact Us

No Starch Press, Inc.
245 8th Street
San Francisco, CA 94103 USA
Phone: 800.420.7240 or +1 415.863.9900 (9 a.m. to 5 p.m., M-F, PST)
Fax: +1 415.863.9950

Reach Us by Email

General inquiries: info@nostarch.com
Media requests: media@nostarch.com
Academic requests: academic@nostarch.com (Please see this page for academic review requests)
Help with your order: info@nostarch.com
Reach Us on Social Media
Twitter
Facebook
Instagram
Pinterest
100.420.7240 x 123
'''

import pyperclip
import re

# 为电话号码创建一个正则表达式
# 电话号码 phone
phoneRegex = re.compile(r'''(
        (\d{3}|\(\d{3}\))? # area code
        (\s|-|\.)? # separator
        (\d{3}) # first 3 digits
        (\s|-|\.) # separator
        (\d{4}) # last 4 digits
        (\s*(ext|x|ext.)\s*(\d{2,5}))? # extension
        )''', re.VERBOSE)

# 为E-mail 地址创建一个正则表达式
# Create email regex. 邮件
emailRegex = re.compile(r'''(
    [a-zA-Z0-9._%+-]+ # username
    @ # @ symbol
    [a-zA-Z0-9.-]+ # domain name
    (\.[a-zA-Z]{2,4}) # dot-something
    )''', re.VERBOSE)
# TODO: Create email regex.
# TODO: Find matches in clipboard text.
# TODO: Copy results to the clipboard.


# Find matches in clipboard text.
# 获得剪切板文件
text = str(pyperclip.paste())
matches = []
a = phoneRegex.findall(text)
for groups in phoneRegex.findall(text):
    # 读取数字
    phoneNum = '-'.join([groups[1], groups[3], groups[5]])
    # 如果没有分号
    if groups[8] != '':
        phoneNum += ' x' + groups[8]
    matches.append(phoneNum)
for groups in emailRegex.findall(text):
    matches.append(groups[0])

# Copy results to the clipboard.
if len(matches) > 0:
    pyperclip.copy('\n'.join(matches))
    print('Copied to clipboard:')
    print('\n'.join(matches))
else:
    print('No phone numbers or email addresses found.')

Copied to clipboard:
800-420-7240
415-863-9900
415-863-9950
100-420-7240 x123
info@nostarch.com
media@nostarch.com
academic@nostarch.com
info@nostarch.com

2.2 强口令检测

写一个函数，它使用正则表达式，确保传入的口令字符串是强口令。强口令的定义是：长度不少于8 个字符，同时包含大写和小写字符，至少有一位数字。

import re
import pyperclip

def detect(text):
    if len(text)<8:
        return False
    test1=re.compile(r'([0-9])')
    result1=test1.search(text)
    if result1==None:
        return False
            
    test2=re.compile(r'([A-Z])')
    result2=test2.search(text)
    if result2==None:
        return False       
    
    test3=re.compile(r'([a-z])')
    result3=test3.search(text)
    if result3==None:
        return False
    
    return True        
            
text='uusssZmi0546'
status=detect(text)
print(status)

True

2.3 strip()的正则表达式版本

写一个函数，它接受一个字符串，做的事情和strip()字符串方法一样。如果只传入了要去除的字符串，没有其他参数，那么就从该字符串首尾去除空白字符。否
则，函数第二个参数指定的字符将从该字符串中去除。

import re

def my_strip(text,param=''):
    if len(param)<1:
        param='\s'
    params_begin= r'^[{}]*'.format(param)
    params_end= r'[{}]*$'.format(param)
    my_begin=re.compile(params_begin,re.I)
    my_end=re.compile(params_end,re.I)
    my=my_begin.sub('', text)
    text=my_end.sub('', my)
    return text
text='SpamSpamBaconSpamEggsSpamSpam'
param='SPAM'    
text=my_strip(text,'SPAM')
print(text)

BaconSpamEgg

posted @ 2019-06-25 20:28 落痕的寒假阅读(31) 评论(0) 编辑收藏举报

刷新页面返回顶部

落痕的寒假

今天也要加油鸭