python处理不同编码格式的文件

1. 使用python处理utf-16le编码格式的文件

使用codecs模块打开文件

file = codecs.open(newfile, 'r', 'utf-16le')

对文件内容按行进行处理时,发现第一行的编码老是有问题。使用MadEdit编辑器以16进制查看文件时,发现如下图编码:

从图中可以看出,文件中的内容【以前】是从第2位编码开始的,同时“以”对应2,3字节,所以在处理文件的第一行时需要过滤前两个字节的编码FFFE。

            if i == 0:
                key = lines_expect[i][1:]
            else:
                key = lines_expect[i]

这样就可以正常读取文件内容了!

posted @ 2013-02-25 11:01  qi09  阅读(2228)  评论(1编辑  收藏  举报