Python2 Python3 编码问题操作系统编码文本编码格式 ansi编码 utf8编码 gb2312中文编码

编码问题：操作系统编码文本编码编程脚本中字节数组转字符串默认使用的编码格式

操作系统默认的编码：Windows系统 GBK，Linux系统是utf-8。Windows系统也支持utf-8，需要特殊指定。

文本编码 win10系统创建的文本默认是UTF-8编码，win7系统创建的文本是GBK编码。

编程语言的编码格式：比如说C++，java 语言，在我们需要将一个字节数组转成字符串时，默认使用的编码格式，这个编程语言会以当前操作系统的编码格式作为默认的编码格式。这就是我们在window 下编程通常需要指定UTF-8 的原因。

解决办法：

转自: https://xrlin.github.io/解决python2.x文件读写编码问题/

#coding=utf-8
# test.txt是一个以gbk2312编码（简体中文windows系统中的默认文本编码）的文本文件

# 文本写入
with open('test.txt', 'a') as f:
  f.write('test') # 正常写入
  f.write('测试') # 正常写入,乱码
  f.write（u’测试') # 写入错误，触发UnicodeEncodeError异常

# 文本读取
with open('test.txt') as f:
  for line in f:
    print line, type(line)  # 输出test娴嬭瘯, <type 'str'>

由于脚本源文件中的字符为utf-8编码，而文本文档中的字符为gb2312编码，所以以str类型字符串直接写入文件，此时str字符串的编码与文件编码不同，导致乱码。直接str类型参数传递给write方法容易导致乱码问题，直接传递Unicode类型字符串作为write的参数，会导致UnicodeEncodeError错误，这是因为python2在写入unicode字符串时会自动尝试转码为ascii编码，而ascii编码并不能处理中文。知道了问题的根源，首先想到的解决方法就是对源字符串按照文件进行编码，保证编码正确。

# 解决方法1
with open('test.txt', 'w') as f:
  f.write('测试'.decode('utf-8').encode('gb2312'))
  f.write(u'测试‘.ecode('gb2312')

如果是str类型的字符串，需要使用decode(因为我在脚本中设定#coding=utf8,所以使用decode(‘utf-8’))将其改变为python内部使用的Unicde编码然后使用encode转换成对应的编码类型。

读写操作都需要进行编码转换是个容易导致错误而且烦人的问题，python中提供了codecs这个内置自然语言处理模块方便我们进行不同编码语言的处理，codecs模块的open方法可以指定encoding参数设定文件的编码格式，以后codecs会自动处理文件的读写编码问题，读取的字符串和写入时的字符串参数统一使用python的Unicode类型。使用codecs的open方法代替原来的open方法发可以摆脱烦人的文件编码问题。

import codecs
with codecs.open('test.txt', 'w', encoding='utf-8') as f:
  f.write(u'测试')
with codecs.open('text.txt', encoding='utf-8') as f:
  for line in f: 
   print line, type(line) # output： 测试<type 'unicode'>

posted on 2022-12-30 16:13 星空博客阅读(270) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· python字符编码问题处理

· 终于搞懂了python2和python3的encode(编码)与decode(解码)

· python编码类型转换及字符集探讨

· 02 字符编码

· python 之路，致那些年，我们依然没搞明白的编码

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

历史上的今天：
2020-12-30 python timedelta()
2020-12-30 Python str.splitlines()方法
2020-12-30 python str.startswith()

星空博客