第一章 1.17 内存管理, 拷贝,正则表达式

一. 内存管理

1. C语言中内存管理的概念

  • 内存分为堆区间和栈区间
  • C的栈区间的内存是系统自动申请和释放(自动管理)
  • C的堆区间的内存需要调用malloc函数申请,调用free函数释放

其他高级语言中的垃圾管理机制是针对堆区间的内存进行管理的

2. python的内存管理机制

1) 内存的申请

python中所有的数据都是存在堆中的,变量是保存在栈区间的,变量中保存的是保存在堆中的数据的地址。
重新给变量赋值,会先在内存开辟新的内存保存新的数据,然后将新的数据的地址重新保存到变量
但是如果使用数字或者字符串给变量赋值,不会直接开辟新的内存,而是先检查内存有没有这个数据,如果有直接将原来的数据的地址给变量

2)内存的释放(垃圾回收机制)

在python中一个数据对应的内存空间是否释放,就看这个数据的引用计数是否为0;如果引用计数为0,数据对应的内存就会被自动释放
循环引用问题: python的垃圾回收机制会自动处理循环引用问题

增加引用计数: 增加数据的引用(让更多的变量来保存数据的地址)
减少引用计数: 删除引用,或者让引用去保存新的数据

3)查看引用次数

导入sys模块中的getrefcount
print(getrefcount(list2))
getrefcount函数在调用时会给形参赋值,所以打印的值会比我们需要的值多1

3.循环引用

  • 堆中的数据相互间的引用,数据计数不为零,不被释放
  • python的垃圾回收机制会自动解决循环引用的问题


二. 拷贝(需要导入copy模块)

1. 直接赋值

一个变量给另外一个变量赋值时,两个变量的数据是同一个值

2.浅拷贝

拷贝之后产生新的相同的数据,新的地址.但是若数据内有引用其他的数据,则其他数据的地址还是原来的地址,(相当于一个人的类,有一个狗的属性,浅拷贝之后,多个人对象拥有同一条狗(拷贝之后狗对象的地址不变,只是多了几次引用))

3.深拷贝

(多个人都拥有各自的狗)

from copy import copy, deepcopy


class Dog:
    def __init__(self, name, color='黄色'):
        self.name = name
        self.color = color

    def __repr__(self):
        return '<%s __id: %s>' % (str(self.__dict__)[1:-1], id(self))


class Person:
    def __init__(self, name, age=10, gender='男', dog=None):
        self.name = name
        self.age = age
        self.gender = gender
        self.dog = dog

    def __repr__(self):
        return '<%s __id: %s>' % (str(self.__dict__)[1:-1], id(self))


# 直接赋值
print('直接赋值')
p1 = Person('小明', dog=Dog('大黄'))
p2 = p1    # 赋值后p1和p2指向是同一个Person对象
print('p1:', p1)
print('p2:', p2)
p1.gender = '女'
p1.dog.color = '白色'
print('p1:', p1)
print('p2:', p2)

print('=============浅拷贝==============')
p1 = Person('小明', dog=Dog('大黄'))
p2 = copy(p1)
print(p1)
print(p2)
p1.gender = '女'
p1.dog.color = '白色'
print('p1:', p1)
print('p2:', p2)

print('=============深拷贝===========')
p1 = Person('小花', dog=Dog('大黄'))
p2 = deepcopy(p1)
print('p1:', p1)
print('p2:', p2)
p1.gender = '女'
p1.dog.color = '白色'
print('p1:', p1)
print('p2:', p2)

魔法方法(__repr__):自定义打印结果的显示
def repr(self):
return '<%s __id: %s>' % (str(self.dict)[1:-1], id(self))



三. 正则表达式

1.正则表达式

用正则符号来描述字符串规则让字符串匹配更简单(计算机语言基本支持正则,python通过re模块支持正则)

2. 正则符号

(一) 匹配符号

1).普通字符:在正则中没有特殊功能和意义的字符
2).特殊字符:
①:点(.) - 代表任意字符

print(re.fullmatch(r'a..b', 'au9b'))

②:(\w) - ASCII码表中只能匹配字母、数字或者下划线;ASCII码表以外的都可以匹配

print(re.fullmatch(r'a\wb', 'a8b'))

③:(\d) - 匹配任意一个数字字符

print(re.fullmatch(r'a\d\db', 'a33b'))

④:(\s) - 匹配任意一个空白字符(空格,缩进,换行...)

print(re.fullmatch(r'a\sb', 'a\tb'))
print(re.fullmatch(r'a\sb', 'a\nb'))

⑤:(\W \D \S) -> 功能和小写的相反
\W - 匹配ASCII码表任意非字母数字下划线
\D - 匹配任意非数字字符
\S - 匹配任意非空白字符

print(re.fullmatch(r'a\Db\Sc\Wd', 'aZb=c+d'))

⑥:[字符集] - 匹配字符集中的任意一个字符(一个中括号只能匹配一个字符集)
注意:前一个字符的编码值一定要比后一个字符的编码值要大
当字符集中有减号时,减号不能放中间

  •  [1-9] - 匹配123456789中的任意一个字符
  •  [0-9] - \d
  •  [a-z] - 匹配任意一个小写字母
  •  [A-Z] - 匹配任意一个大写字母
  •  [a-zA-Z] - 匹配任意一个字母
  •  [\u4e00-\u9fa5] - 匹配任意一个中文字符
  •  [1-9abc] - 匹配1~9或者abc中的任意一个字符
  •  [a-zA-Z0-9_] - 匹配字母数字下划线
  •  [\dxyz] - 任意数字或者x、y、z
print(re.fullmatch(r'a[xyz89?]b', 'azb'))
print(re.fullmatch(r'a[xyz]b', 'anb'))
print(re.fullmatch(r'a[23456789]b', r'a7b'))
print(re.fullmatch(r'a[1-9abc]b', 'aab'))
print(re.fullmatch(r'a[abc1-9]b', 'aab'))
print(re.fullmatch(r'a[ac1-9b]b', 'aab'))
print(re.fullmatch(r'a[+*-]b', 'a-b'))
print(re.fullmatch(r'a[\dxyz]b', 'axb'))
print(re.fullmatch(r'a[\\dxyz]b', 'a\\b'))

⑦:[^字符集] - 匹配除了字符集以外的其他任意字符
注意:符号^只能放在最前面!

print(re.fullmatch(r'a[xyz^]b', 'a^b'))
(二) 检测符号

①: \b - 检测是否是单词结尾
单词结尾-所有可以区分出两个不同单词的符号都是单词结尾,其中字符串开头和字符串结尾
用法:检测\b所在的位置是否是单词结尾;不影响匹配的时候的字符串长度

re_str = r'a\db\b'
print(re.fullmatch(re_str, 'a7b'))

②:^ - 检测是否是字符开头

re_str = r'^\d\d\d'
print(re.fullmatch(re_str, '123'))
print(re.search(re_str, 'k898ahs237khhj'))

③:$ - 检测是否是字符结尾

re_str = r'\d\d\d$'
print(re.search(re_str, '123k898ahs237khhj990'))
(三) 匹配次数

①:? - 匹配0次或1次
例: x? - x出现0次或1次
\d? - 数字出现0次或1次
②:* - 任意次数,0次也可以
③:+ - 1次或多次

print(re.fullmatch(r'ax?b', 'axb'))
print(re.fullmatch(r'a\d*b', 'a12b'))
print(re.fullmatch(r'a\d+b', 'a1272937928329b'))

④:{}
a: {N} - 匹配N次
b: {M,N} - 匹配M到N次
b: {M,} - 至少匹配M次
b: {,N} - 最多匹配N次

re_str = r'a\d{3,5}b'
print(re.fullmatch(re_str, 'a78988b'))
print(re.fullmatch(re_str, 'a7898b'))
print(re.fullmatch(re_str, 'a789880b'))   # None

练习

# 练习: 写一个正则表达式判断输入的内容是否是整数
# 123 -> 成功!  123a -> 失败!   -123  -> 成功!   --123 -> 失败!   +123 -> 成功
re_str = r'[+-]?[1-9]\d*'

贪婪和非贪婪

匹配次数不确定的时候有贪婪和非贪婪状态
? * + {M,} {M,N} {,N} 默认贪婪
在能匹配成功的前提下,尽可能多的匹配
?? *? +? {M,}? {M,N}? {,N}? 非贪婪
在能匹配成功的前提下,尽可能少的匹配

3. 分支和分组

1).分支

正则1 | 正则2 - 先让正则1匹配,再让正则2匹配;只要有一个匹配就能成功

# 匹配一个字符串: abc前是3个数字或者3个字母
# 123abc, uJhabc
re_str = r'\d{3}abc|[a-zA-Z]{3}abc'
2).分组

①:整体控制次数: ()匹配次数
②:将正则表达式作为一个整体操作

重复:带分组的正则表达式\M - 在\M的位置重前面第M个分组匹配到的内容

re_str = r'(\d{3}|[a-z]{3})abc'
print(re.fullmatch(re_str, 'mskabc'))
re_str = r'(\d+)([a-z]+)=\2'
print(re.fullmatch(re_str, '6kh=kh'))
posted @ 2019-11-27 19:11  anjhon_木  阅读(194)  评论(0编辑  收藏  举报