编码的种类
日本游戏进口到中国----》中国的电影没有 日本的编码集----》导致乱码
要想不乱----》装语言包----》能够正常显示日文
联合国 万国码 -----》支持全球所有的语言
1. unicode , 2-4个字节,已经收录136690个字符(中文就有2万多个字符),并且一直在不断扩张中。。。。。
2. 还可以与全球各个 语言进行转换, unicode----》gbk 等等 1990年左右
1. 1980年,当时很多软件都基于gb2312开发的,转向unicode 的话基本等于推到重来
2. Unicode = 英语,gbk = 汉语,没有强烈的需求全都转为Unicode
全球计算机厂商出厂的都支持Unicode,大多数软件的程序都支持Unicode
中国的windows 电脑上都是gbk编码的
Unicode 又带来一个新问题, 在内存里空间大没问题 ,如果要传输或者存在硬盘上,空间大了一倍浪费+效率低
针对unicode的传输+存储,做了一个utf-8(全称:Unicode Transformation Format ,学术名UTF ),总共有三个版本,utf - 8 ,utf - 16 ,utf - 32
UTF - 8 :使用1、2、3、4个字节表示所有字符;优先使用1个字符,没法满足则使增加1个字节,最多4个字节,英文占1个字节,欧洲语系占2个,东亚占3个,其他及特殊字符占4个字节
字符 | ACSII | Unicode | UTF -8 |
A | 01000001 | 00000000 01000001 | 01000001 |
中 | x | 01001110 00101101 | 11100100 10111000 10101101 |
py 2 = ACSII
py 3 = Unicode
编写程序前需要先声明用什么方式编码