（三）字典和集合

一、泛映射类型

1、标准库里的映射类型都是dict来实现的，它们有个共同的限制，只有可散列的数据才能作为映射里的键；

　　2、如果一个对象是可散列的，那么在这个对象的生命周期中，它的散列值是不变的。并且这个对象需要实现__hash__方法，

包含__qe__方法。原子不可变数据类型（str，bytes和数值类型）都是可散列的，frozenset也是可散列的。当一个元组所包含的所

有元素都是可散列的，它才是散列的。

　　 3、一般用户自定义的类型都是可散列的，散列值是其id值，

　　4、创建字典的方式

二、字典推导

三、常见的映射方法

　　1、用setdefault处理找不到的键

　　　当d[k]查找不到正确的键时，会抛出异常，可以用d.get(key，default）来替代d[k]。如下为统计某元素出现的位置。

　　用setdefault简化代码，只需要查询一次，上面至少需要2次（不存在时需要3次）

三、映射的弹性键查询

1、当找不到键时，另一个选择是defaultdict，返回某种默认值。如下返回空列表。

注：这种方法只会在__getitem__调用时发挥作用，即dd[k]时有效，使用dd.get(k)则会返回None。

　　2、特殊方法__missing__

　　　在映射类型中，在__getitem__找不到键的时候，会自动调用__missing__方法。其中2中的isinstance是必需的，当键不存在时，防止递归调用；__contains__方法也是必需的，当调用k in d时会调用它，

但并没有用k in dict来判断键的存在，因为也会导致__contains__被递归调用，因此采用的是显式的调用self.keys（）；在python3中，dict.keys()返回的是视图，查找元素速度快。在python2中返回的是列表，当

对象体积较大时，效率不高，因为需要扫描整个列表。

四、字典的变种

除了defaultdict的其他映射

OrderDict：添加键的时候会保持顺序。

　　 ChainMap: 容纳数个不同的映射对象。

Counter: 计数

五、子类化UserDict

自定义映射时，以UserDict为基类，比以dict为基类更方便。UserDictr 的data属性，是dict的实例。

六、不可变映射类型

types模块中引入一个MappingProxyType模块

七、集合论

1、 set或frozenset。set类型本身是不可散列的，但是frozenset可以，因此可以创建一个包含不同frozenset的set。

使用set的某些操作可以提高速度

　　2、集合的创建

　　　（1）集合字面量{1}，{1，2}。空集合set()（{}为空字典）。

　　　（2）{1，2，3}字面量句法相比于set([1,2,3])更快。

　　（3）集合推导跟列表推导类似，不过将方括号换成了{}

七、dict和set背后

　　1、查找时，dict和set的速度要快于列表；

　　2、字典中的散列表。散列表是稀疏数组（总有空白元素），导致字典会占用较大空间。当存放数量巨大的记录时，放在元组或具名元组构成的列表中会是较好的选择。

　　3、键查询很快

　　4、键的次序取决于添加顺序

　　5、往字典里添加新键，可能会改变已有键的顺序：当添加新键时，可能会为字典扩容，需要新建一个更大的散列表，这个过程可能会出现冲突。

　　6、由5知，不要同时对字典时行扫描和修改，最好分成两步：扫描字典，放到一个新字典里；修改原字典。

　　7、上述特点对集合同样适用。

posted @ 2018-11-02 20:28 牧马人夏峥阅读(244) 评论(0) 编辑收藏举报

刷新页面返回顶部

牧马人夏峥