流畅的python——10 序列的修改、散列和切片

十、序列的修改、散列和切片

不要检查它是不是鸭子、它的叫声像不像鸭子、它的走路姿势像不像鸭子，等等。具体检查什么取决于你想使用语言的哪些行为。（comp.lang.python，2000 年 7月 26 日） ——Alex Martelli

多维向量

In [20]: from array import array

In [21]: import reprlib

In [22]: import math

In [29]: class Vector:
    ...:     typecode = 'd'
    ...:     def __init__(self, components):
    ...:         self._components = array(self.typecode, components)
    ...:     def __iter__(self):
    ...:         return iter(self._components)
    ...:     def __repr__(self):
    ...:         components = reprlib.repr(self._components)
    ...:         components = components[components.find('['):-1]
    ...:         return 'Vector({})'.format(components)
    ...:     def __str__(self):
    ...:         return str(tuple(self))
    ...:     def __bytes(self):
    ...:         return (bytes([ord(self.typecode)]) + bytes(self._components))
    ...:     def __eq__(self,other):
    ...:         return tuple(self) == tuple(other)
    ...:     def __abs__(self):
    ...:         return math.sqrt(sum(x*x for x in self))
    ...:     def __bool__(self):
    ...:         return bool(abs(self))
    ...:     @classmethod
    ...:     def frombytes(cls, octets):
    ...:         typecode = chr(octets[0])
    ...:         memv = memoryview(octets[1:]).cast(typecode)
    ...:         return cls(memv)
    ...:     def __len__(self):
    ...:         return len(self._components)
    ...:     def __getitem__(self, index):  # 支持 [] 和 切片
    ...:         return self._components[index]

我使用 reprlib.repr 的方式需要做些说明。这个函数用于生成大型结构或递归结构的安全表示形式，它会限制输出字符串的长度，用 '...' 表示截断的部分。我希望 Vector实例的表示形式是 Vector([3.0, 4.0, 5.0]) 这样，而不是 Vector(array('d',[3.0, 4.0, 5.0]))，因为 Vector 实例中的数组是实现细节。

编写 __repr__ 方法时，本可以使用这个表达式生成简化的 components 显示形式：reprlib.repr(list(self._components))。然而，这么做有点浪费，因为要把self._components 中的每个元素复制到一个列表中，然后使用列表的表示形式。而是直接把 self._components 传给 reprlib.repr 函数，然后去掉 [] 外面的字符。

调用 repr() 函数的目的是调试，因此绝对不能抛出异常。如果 __repr__ 方法的实现有问题，那么必须处理，尽量输出有用的内容，让用户能够识别目标对象。

协议和鸭子类型

在面向对象编程中，协议是非正式的接口，只有在文档中定义，在代码中不定义。任何类只要使用标准的签名和语义实现了协议的方法，就能用在任何期待实现协议功能的地方。其是不是哪个类的子类无关紧要，只要提供了所需的方法即可。

比如：序列协议：只要实现 __len__ 和 __getitem__ 两个方法。

我们说它是序列，因为它的行为像序列，这才是重点。

协议是非正式的，没有强制力，因此如果你知道类的具体使用场景，通常只需要实现一个协议的部分。例如，为了支持迭代，只需要实现 __getitem__ 方法，没必要实现 __len__ 方法。

支持切片

如果得到的 Vector 对象的切片是一个列表，会丢失很多功能，如果得到是还是一个 vector 对象，就很好了。

切片原理

In [1]: class Y:
   ...:     def __getitem__(self,index):
   ...:         return index
   ...:

In [2]: y = Y()

In [3]: y[1]
Out[3]: 1

In [4]: y[1:2]
Out[4]: slice(1, 2, None)

In [5]: y[1:2:2,9]  # 逗号隔开，index 是元组
Out[5]: (slice(1, 2, 2), 9)

In [6]: y[1:2,2:3]  # 支持多个切片
Out[6]: (slice(1, 2, None), slice(2, 3, None))

`indices` 方法

indices 方法开放了内置序列实现的棘手逻辑，用于优雅地处理缺失索引和负数索引，以及长度超过目标序列的切片。这个方法会“整顿”元组，把 start、stop 和 stride 都变成非负数，而且都落在指定长度序列的边界内。

In [11]: slice(None,11,2).indices(5)
Out[11]: (0, 5, 2)

In [12]: slice(None,None,None).indices(10)
Out[12]: (0, 10, 1)

dir() 和 help()，发现 slice.indices() 方法。这也表明交互式控制台是个有价值的工具，能发现新事物。

In [10]: help(slice.indices)
Help on method_descriptor:

indices(...)
    S.indices(len) -> (start, stop, stride)

    Assuming a sequence of length len, calculate the start and stop
    indices, and the stride length of the extended slice described by
    S. Out of bounds indices are clipped in a manner consistent with the
    handling of normal slices.

`getitem` 处理切片

def __getitem__(self, index):
    cls = type(self)  # 获取类以构造对象
    if isinstance(index, slice):
        return cls(self._components[index])  # 返回对象
    elif isinstance(index, numbers.Integral):
        return self._components[index]
    else:
        msg = '{cls.__name__} indices must be integers'
        raise TypeError(msg.format(cls=cls))

`getattr` : obj.x

前四个位置的元素分别为：x, y, z, t

shortcut_names = 'xyzt'
def __getattr__(self, name):
    cls = type(self)
    if len(name) == 1:
        pos = cls.shortcut_names.find(name)
        if 0 <= pos < len(self._components):
            return self._components[pos]
    msg = '{.__name__!r} object has no attribute {!r}'
    raise AttributeError(msg.format(cls, name))

测试：

>>> v = Vector(range(5))
>>> v
Vector([0.0, 1.0, 2.0, 3.0, 4.0])
>>> v.x
0.0
>>> v.x = 10  # 赋值给 v 新的 x 属性
>>> v.x  # 优先读取 x 属性，而不是直接调用 __getattr__
10
>>> v
Vector([0.0, 1.0, 2.0, 3.0, 4.0])

仅当对象没有指定名称的属性时，Python 才会调用那个方法，这是一种后备机制。可是，像 v.x = 10 这样赋值之后，v 对象有 x 属性了，因此使用 v.x 获取 x 属性的值时不会调用 __getattr__ 方法了，解释器直接返回绑定到 v.x 上的值，即 10。另一方面，__getattr__ 方法的实现没有考虑到 self._components 之外的实例属性，而是从这个属性中获取 shortcut_names 中所列的“虚拟属性”。

实现 `setattr` 方法

def __setattr__(self, name, value):
    cls = type(self)
    if len(name) == 1:
        if name in cls.shortcut_names:
            error = 'readonly attribute {attr_name!r}'
        elif name.islower():  # 如果 name 是小写字母，为所有小写字母设置一个错误消息。
            error = "can't set attributes 'a' to 'z' in {cls_name!r}"
        else:
            error = ''
        if error:
            msg = error.format(cls_name=cls.__name__, attr_name=name)
            raise AttributeError(msg)
     super().__setattr__(name, value)  # 默认情况：在超类上调用 __setattr__ 方法，提供标准行为。

为了给 AttributeError 选择错误消息，查看了内置的 complex 类型的行为，因为 complex 对象是不可变的

注意，我们没有禁止为全部属性赋值，只是禁止为单个小写字母属性赋值，以防与只读属性 x、y、z 和 t 混淆。

多数时候，如果实现了 __getattr__ 方法，那么也要定义 __setattr__ 方法，以防对象的行为不一致。

`setitem` 方法，支持 v[0] = 1.1

可散列对象

累积计算

operator 模块以函数的形式提供了 Python 的全部中缀运算符，从而减少使用 lambda 表达式。

>>> n = 0
>>> for i in range(1, 6):
...     n ^= i
>>> import functools
>>> functools.reduce(lambda a, b: a^b, range(6))
>>> import operator
>>> functools.reduce(operator.xor, range(6))

使用 reduce 函数时最好提供第三个参数，reduce(function, iterable, initializer)，这样能避免这个异常：TypeError: reduce() of empty sequence with no initial value（这个错误消息很棒，说明了问题，还提供了解决方法）。如果序列为空，initializer 是返回的结果；否则，在归约中使用它作为第一个参数，因此应该使用恒等值。比如，对 +、| 和 ^ 来说， initializer 应该是 0；而对 * 和 & 来说，应该是 1。

from array import array
import reprlib
import math
import functools 
import operator
class Vector:
    typecode = 'd'
    def __eq__(self, other):
        return tuple(self) == tuple(other)
    def __hash__(self):
        hashes = (hash(x) for x in self._components)
        return functools.reduce(operator.xor, hashes, 0)

映射过程计算各个分量的散列值，归约过程则使用 xor 运算符聚合所有散列值。把生成器表达式替换成 map 方法，映射过程更明显：

def __hash__(self):
    hashes = map(hash, self._components)
    return functools.reduce(operator.xor, hashes)

在 Python 2 中使用 map 函数效率低些，因为 map 函数要使用结果构建一个列表。但是在 Python 3 中，map 函数是惰性的，它会创建一个生成器，按需产出结果，因此能节省内存——这与示例 10-12 中使用生成器表达式定义 __hash__ 方法的原理一样。

改进 __eq__ 方法

def __eq__(self, other):
    if len(self) != len(other):
        return False
    for a, b in zip(self, other):  # 由元组构成的生成器
        if a != b:
            return False
        return True

前面比较长度的测试是有必要的，因为一旦有一个输入耗尽，zip 函数会立即停止生成值，而且不发出警告。

改进：上个改进效率很好，不过用于计算聚合值的整个 for 循环可以替换成一行 all 函数调用：如果所有分量对的比较结果都是 True，那么结果就是 True。只要有一次比较的结果是 False，all 函数就返回 False。zip 也是返回生成器。

def __eq__(self, other):
    return len(self) == len(other) and all(a == b for a, b in zip(self, other))

出色的 zip 函数

使用 for 循环迭代元素不用处理索引变量，还能避免很多缺陷，但是需要一些特殊的实用函数协助。其中一个是内置的 zip 函数。使用 zip 函数能轻松地并行迭代两个或更多可迭代对象，它返回的元组可以拆包成变量，分别对应各个并行输入中的一个元素。

>>> from itertools import zip_longest  # 这个模块可以填充缺失值
>>> list(zip_longest(range(3), 'ABC', [0.0, 1.1, 2.2, 3.3], fillvalue=-1))
[(0, 'A', 0.0), (1, 'B', 1.1), (2, 'C', 2.2), (-1, -1, 3.3)]

输出格式化：`format`

def angle(self, n):  # 计算某个角坐标
    r = math.sqrt(sum(x * x for x in self[n:]))
    a = math.atan2(r, self[n-1])
    if (n == len(self) - 1) and (self[-1] < 0):
        return math.pi * 2 - a
    else:
        return a
def angles(self):  # 计算全部角坐标
    return (self.angle(n) for n in range(1, len(self)))
def __format__(self, fmt_spec=''):
    if fmt_spec.endswith('h'): # 超球面坐标
        fmt_spec = fmt_spec[:-1]
        # 使用 itertools.chain 函数生成生成器表达式，无缝迭代向量的模和各个角坐标。
        coords = itertools.chain([abs(self)],self.angles())
        outer_fmt = '<{}>'
    else:
        coords = self
        outer_fmt = '({})'
    components = (format(c, fmt_spec) for c in coords)
    return outer_fmt.format(', '.join(components))

协议，是鸭子类型语言使用的非正式接口。

我们经常分析 Python 标准对象的行为，然后进行模仿，让 Vector 的行为符合 Python 风格。

模仿内置类型实现类时，记住一点：模仿的程度对建模的对象来说合理即可。例如，有些序列可能只需要获取单个元素，而不必提取切片。 ——Python 语言参考手册中“Data Model”一章

不要为了满足过度设计的接口契约和让编译器开心，而去实现不需要的方法，我们要遵守 KISS 原则（http://en.wikipedia.org/wiki/KISS_principle）。

“地道”并不是指使用最鲜为人知的语言特性。

python 风格的求和方式

我喜欢 Evan Simpson 的代码，不过也喜欢 David Eppstein 对此给出的评论：

如果你想计算列表中各个元素的和，写出的代码应该看起来像是在“计算元素之和”，而不是“迭代元素，维护一个变量 t，再执行一系列求和操作”。如果不能站在一定高度上表明意图，让语言去关注低层操作，那么要高级语言干嘛？

随后，Alex 建议提供并实现了 sum() 函数。这次讨论之后三个月，Python 2.3 就内置了这个函数。因此，Alex 喜欢的句法变成了标准：

>>> sum([sub[1] for sub in my_list])
60

下一年年末（2004 年 11 月），Python 2.4 发布了，这一版引入了生成器表达式。因此，在我看来，Guy Middleton 那个问题目前最符合 Python 风格的答案是：

>>> sum(sub[1] for sub in my_list)
60

posted @ 2021-09-27 19:13 pythoner_wl 阅读(143) 评论(0) 收藏举报

刷新页面返回顶部

pythoner_wl

流畅的python——10 序列的修改、散列和切片

十、序列的修改、散列和切片

协议和鸭子类型

支持切片

切片原理

indices 方法

__getitem__ 处理切片

__getattr__ : obj.x

实现 __setattr__ 方法

__setitem__ 方法，支持 v[0] = 1.1