Python3.2邮件解码

Python3.2中字符串全是unicode，接收邮件retr返回的信息message是bytes列表。

测试过程中发现Python3.2 接收邮件后的处理和Python 2.X差别很大，原来可以正确解码的邮件都要另行处理，包括mail.as_string()和message_from_string()和message_from_file()都有时会出问题。而新引入的message_from_bytes()则要好用得多。但考虑到国内邮件的复杂情况(哇，真的好复杂啊，主要是邮件的编码，规范的和不规范的)，邮件解码经常出现乱码问题。chardet给出的结果也有问题，比如说邮件中有未编码处理的英文和中文混合的情况，它测得的编码有时也会发生错误，这样就造成了解码错误出现乱码。

我使用了一个比较笨的办法：

先利用chardet来解码出邮件文本:

ms=''
for l in message:
charset=chardet.detect(l)['encoding']
if charset:
ms+=l.decode(charset)+'\n'
else:
ms+=l.decode()

这其中可能有乱码，先不管它，因为我们主要为了取得charset信息，然后：

#判断编码
import re
cp=re.compile('charset=\S+')
m=cp.search(ms).group()

eCharset=m[9:len(m)-1]

好了，再根据这个eCharset去解码邮件原始的bytes就可以了。

（没有做大范围的测试，这个办法有点笨，但可以解决部分乱码问题）

注意：

mail=email.message_from_string(ms)

成功后，再调用mail.as_string()有时还是会出问题，真搞不懂。

欢迎大侠指教！

posted on 2011-03-18 15:58 garfieldtom 阅读(1118) 评论(0) 收藏举报