2-02字符编码的演化

  • GB2312又称国标码,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码,共7445个图形字符,其中汉子占6763个。
  • 1995年发布GBK1.0,gbk编码能够用来同时表示繁体字和简体字,该编码标准兼容GB2312,共收录汉字21003个,同时包含中日韩文字里所有汉字。
  • 2000年发布GB18030,是对GBK编码的扩充,覆盖中文、日文、朝鲜语和中国少数民族文字,其中收录27484个汉字,兼容GBK和GB2312字符集。
  • BIG5编码:台湾地区繁体中文标准字符,采用双字节编码,共收录13053个中文字,1984年实施。

为解决每个国家不同编码间不互通的问题,ISO标准组织出马了!

  • Unicode编码:国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码,以满足跨语言、跨平台的文本信息转换。Unicode(统一码,万国码)规定所有的字符和符号最少由16位来表示(2个字节),即:2**16=65536
  • UTF-8,是对Unicode编码的压缩和优化,他不再使用最少使用2个字节,而是将所有的字符和符号进行分类:ascii码中的内容用1个字节保存、欧洲的字符用2个字节保存、东亚的字符用3个字节保存。

 

windows系统中文版默认编码是GBK

Mac OS \ Linux系统默认编码是UTF-8

python2的默认编码为ASCII码

python3的默认编码为UTF-8

声明编码:#! -*- coding: utf-8 -*- (一定要写在第一行)

posted @ 2019-07-05 13:25  echo少儿编程  阅读(176)  评论(0编辑  收藏  举报