终于搞懂了python2和python3的encode(编码)与decode(解码)

本文为作者原创，转载请注明出处：https://www.cnblogs.com/zhaoqingqing/p/17621867.html

终于搞懂了python2的编码#

在python2下碰到非常多次的中文乱码，这次来梳理一下编码问题。

在python 2中默认编码是 ASCII，而在python 3中默认编码是 unicode。

unicode是中间编码，任何字符编码之前的转换都必须解码成unicode，再编码成目标字符编码

在python2读取文件时，如果文件编码是utf-8的，那么中文读取出来前面是带u的，即是unicode编码。

python2编码转换#

参考文章开头的图，任何编码转换之前都要解码成unicode，再转换到目标编码。

字节串-->decode('原来的字符编码')-->Unicode字符串-->encode('新的字符编码')-->字节串

Copy
# -*- coding: utf-8 -*-
utf_8_a = '中文'
gbk_a = utf_8_a.decode('utf-8').encode('gbk')
print(gbk_a.decode('gbk'))
 
#输出结果： 中文

在python2中，如果碰到decode为原来的字符编码出错，检查一下你真实的文件编码是否与文件头一致。

python3字符编码#

python 3的编码默认是unicode，所以字符编码之间的转换不需要decode过程，直接encode即可

注：在python 3，encode编码的同时会把stringl变成bytes类型，decode解码的同时会把bytes类型变成string类型

如何明显的区分unicode及byte,string#

print type(xx)

unicode:

Copy
>>> unicode('中文','gbk')
u'\u4e2d\u6587'

byte:

b开头的

python2文件头的UTF-8或GBK会影响乱码#

以python2举个例子，当文件编码头是GBK时，在py脚本中住csv中直接写入中文或者打印中文都是没有问题的。

可是当把文件的编码头改成UTF-8时，所有涉及中文的地方都要加上u前缀，否则打印会报错，写入到文件中的会是乱码

报错信息：

Copy
  File "E:\Code\km\km\km\get_all_none_meta.py", line 70, in main
    print '获取完所有无meta的md文件共{}个，结果保存在:{}'.format(len(md_filelist),csv_file_fullpath)
UnicodeEncodeError: 'ascii' codec can't encode character u'\u65e0' in position 11: ordinal not in range(128)

UTF-8下乱码修正：

Copy
print '获取完所有无meta的md文件共{}个，结果保存在:{}'.format(len(md_filelist),csv_file_fullpath)
#在UTF-8下要给所有可能会出现中文的字符串前都加上u
print u'获取完所有无meta的md文件共{}个，结果保存在:{}'.format(len(md_filelist),csv_file_fullpath)

python2中字符串前加u有什么作用#

在 Python2 中，字符串前面加 u 表示这是一个 Unicode 字符串，即该字符串中可以包含任意 Unicode 字符，而不仅仅是 ASCII 字符集中的字符。如果没有使用 u，那么默认字符串是由 ASCII 字符集组成的，无法包含非 ASCII 字符。

例如，使用 u 前缀可以将带有中文字符的字符串表示为 Unicode 字符串：

Copy
u_str = u'这是一个 Unicode 字符串'

如果没有使用 u，则需要使用转义序列来表示中文字符：

Copy
str = '\xe8\xbf\x99\xe6\x98\xaf\xe4\xb8\x80\xe4\xb8\xaa Unicode \xe5\xad\x97\xe7\xac\xa6\xe4\xb8\xb2'

需要注意的是，Python3 中所有的字符串都是 Unicode 字符串，因此不需要在字符串前面加 u。

python2简易处理中文#

在一些python2的单文件的小工具中比较简单的处理中文，即不用在字符串前加u转成unicode，我的一个经验是：

把文件编码头改为GBK、GB18030，就不用特殊处理中文了，但会碰到中文在pycharame控制中打印出来是乱码，而在vscode中是好的。

Copy
# -*- coding: utf-8 -*-
print ('这是一段中文')#=>这是一段中文

更换编码

Copy
# -*- coding: GB18030 -*-
print ('这是一段中文')#=>����һ������

直接运行py文件，中文输出是正常的，可以知道是pycharm的控制台编码设置为了UTF-8

调整sys.setdefaultencoding，没用，因为这是python虚拟机的。

在pycharm中修改全局的编码，没用，也可能是我用的社区版有bug

有这几种方法：

在打印log的前面加上u
在vscode中运行

最后，为了让兼容性更好地运行在python2及python3中，建议统一使用utf-8编码

python2和python3#

【中文】这两字GBK编码：\xd6\xd0\xce\xc4

在python2下可以直接打印gbk编码，而python3是不行

Copy
Python 2.7.18 (v2.7.18:8d21aa21f2, Apr 20 2020, 13:19:08) [MSC v.1500 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> print ('\xd6\xd0\xce\xc4')
中文

从上面的输出也验证这者是等价的：\xd6\xd0\xce\xc4 == 中文

python3#

python3的输出如下：

Copy
Python 3.8.10 (tags/v3.8.10:3d8993a, May  3 2021, 11:48:03) [MSC v.1928 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> print('\xd6\xd0\xce\xc4')
ÖÐÎÄ
>>> str1 = '中文'.encode('utf8')
>>> str1
b'\xe4\xb8\xad\xe6\x96\x87'
>>> print (str1.decode('utf8'))
中文

>>> print (str1.decode('gbk'))
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'gbk' codec can't decode byte 0xad in position 2: illegal multibyte sequence
#decode类型不匹配，所以出错

python dict打印出来是编码#

如果要显示中文，建议用字符串拼接，而不要用dict。

Copy
t={1:"中",2:"hi"} #打印结果 {1: '\xe4\xb8\xad', 2: 'hi'}
t2={1:"china",2:"hi"} #打印结果：{1:"china",2:"hi"}

参考资料#

Python基础【day03】：字符转编码操作（五） - 活的潇洒80 - 博客园 (cnblogs.com)

Python中的字符串与字符编码 - 帅丶高高 - 博客园 (cnblogs.com)

作者：赵青青一名在【网易游戏】做游戏开发的程序员，擅长Unity3D，游戏开发，.NET等领域。
本文版权归作者和博客园共有，欢迎转载，转载之后请务必在文章明显位置标出原文链接和作者，谢谢。
如果本文对您有帮助，请点击【推荐】您的赞赏将鼓励我继续创作！想跟我一起进步么？那就【关注】我吧。

posted @ 2023-08-10 23:12 赵青青阅读(804) 评论(1) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Python3虚拟机和对象

· 同时安装py2和py3-安装多版本python

· python字符编码问题处理

· 编码的真相

· python中的编解码

阅读排行：
· 10亿数据，如何做迁移？
· 推荐几款开源且免费的 .NET MAUI 组件库
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单！
· 易语言 —— 开山篇
· Trae初体验

历史上的今天：
2022-08-10 网络抓包工具
2014-08-10 技能系统的数据结构
2014-08-10 关于数据结构（二）
2014-08-10 关于数据结构(一)
2014-08-10 WLW/OLW 最佳博客写作软件

Qing's Blog

终于搞懂了python2和python3的encode(编码)与decode(解码)

终于搞懂了python2的编码#

python2编码转换#

python3字符编码#

如何明显的区分unicode及byte,string#

python2文件头的UTF-8或GBK会影响乱码#

python2中字符串前加u有什么作用#

python2简易处理中文#

python2和python3#

python3#

python dict打印出来是编码#

参考资料#

公告

搜索

常用链接

我的标签

积分与排名

随笔分类 (756)

阅读排行榜

评论排行榜

推荐排行榜