为个小善——发布 Python 库 absolute32

赖勇浩(http://laiyonghao.com

问题1

在较新版本的 Python 中,当两个 int 相加溢出时,它会自动把把结果转换到 long 类型,比如:
>>> 0x7FFFFFFF + 1
2147483648L
这个特性很好,但是它跟 C 语言的结果不一样。如果你要把结果 pack 到 4 个字节的 buffer 中发送到别的进程,结果就比较纠结:
>>> import struct
>>> struct.pack("i", 0x7FFFFFFF + 1)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
struct.error: long too large to convert to int
我在设计我的 webgame 网络协议时遇到了这个问题。

问题2

在不同的硬件平台,同一个函数的返回值也可能是不一样的,比如 hash(),在 32-bit 和 64-bit 都是返回 int,但大小却大有不同:
>>> hash('copyright' * 10) # 32-bit platform
-942199392
>>> hash('copyright' * 10) # 64-bit platform
-6555514777893392992
想像一下你在 32-bit 下写了一个 k/v 存储的文件放到 64-bit 去读,或者反过来,是不是让你很抓狂?

问题3

在不同的 python 版本里,不少函数的返回值也是不一样的,举个例子,zlib 里的 crc32  函数,嗯,是的,别以为它以 32 结尾就一致了!以下引用自 python manuals:
Changed in version 2.6: The return value is in the range [-2**31, 2**31-1] regardless of platform. In older versions the value is signed on some platforms and unsigned on others.

Changed in version 3.0: The return value is unsigned and in the range [0, 2**32-1] regardless of platform.
看到了吧,zlib.crc32(及 zlib.adler32) 虽然跟 32/64 位平台无关,但是 3.x 和 2.x 版本的返回值范围是不一致的,想象一下你设计的网络协议采用了 crc/adler 算法来计算 checksum,然后用于 3.x 和 2.x 版本的 Python 程序通信,会不会想抓狂呢?

解决方案

解决方案显然是一致化,编写这些操蛋的函数的替代品,确保它们在不同的硬件、不同的版本下有同样的返回值。
所以我就编写了自己版本的 add、hash、crc 和 adler 函数,确保它们的返回值为带符号的 32 位整型(即值范围 [-2**31, 2**31-1])。经过在 ubuntu 10.04 LTS 32-bit/64-bit + python 2.6/3.1 测试后,我们把它用在了我们的网络协议处理中。
后来,我把它打成了一个 lib,起名为 absolute32,扔到 google code 托管起来(http://code.google.com/p/absolute32/),同时在 pypi 注册一下,方便有需要的朋友使用它,算是为个小善。

absolute32 安装、使用

安装很简单,因为它已经上传到 pypi,所以简单地执行:
easy_install -U absolute32
就安装好啦,最后送上示例,享用吧,亲!
import absolute32 as a

assert a.add(0x7FFFFFFF, 2) == -0x7FFFFFFF
assert a.hash('copyright') == -174803930
assert a.adler(b'copyright') == 322503642
assert a.crc(b'copyright') == 947983859

posted on 2011-09-08 23:31  张大大123  阅读(184)  评论(0编辑  收藏  举报

导航