此博客是本人从学生时代开始做笔记所用, 部分是工作所遇问题,做填坑笔记,部分闲来查阅资料,加上自己的理解所总结的学习笔记, 常忙得不可开交,若漏了资料来源,望通知~ 前路漫漫,写点东西告诉自己正在一点点进步,而不要迷失于繁忙。

编码方式小解

ASCII

简介: 最早出现的编码方式,全称:American Standard Code for Information Interchange,美国信息互换标准代码

内容: 大小写字母、数字、标点符号、空格 用连续的字节状态表示(不包括扩展字符集)

长度: 1个字节 8位

数目: 最初0~127 随着计算机的普及扩展到255,后面的被称为“扩展字符集”,终于达到阈值,前128位不变,后面的是扩展集,可改变

 

GB2312

简介: 国人对ASCII的扩展字符集,前128未不变,两个大于127的字符连在一起时表示一个汉字,前面一个字节(高字节)从0xA1到0xF7,后面一个字节(低字节)从oxA1到oxFE,

组合成大约7000个简体汉字,也加入数字符号,罗马希腊字母,日文假名等,连原有的字母、数字、标点、空格也重新编成两个字节长,这就是“全角字符”,127以下的叫“半角”字符

内容: 原有的基础上加上部分汉字,数学符号,罗马希腊字母,日文假名

长度: 前128 一个字节 8位(半角),后面 两个字节 16位(全角)

 

GBK,GB18030

简介: GBK是对GBK2312的改进,GB18030是对GBK的改进

内容: 更多的汉字,繁体字,符号,GB18030还包括部分少数民族文字

长度: 前128 一个字节 8位(半角),后面 两个字节 16位(全角)

 

UNICODE

简介: 为应对各国都弄出的五花八门的编码方式导致乱了套,ISO废了所以的地区性编码方案,搞出一个包括地球上所有文化,字母和符号的编码,全称“Universal Multiple-Octet Coded Character Set”,简称UCS

内容: 地球上所有文化,字母和符号的编码

长度: 全部两个字节 16位,不过前128位的前八位都是0!

与GBK的冲突:在制订时没有考虑与任何一种现有的编码方案保持兼容,这使得 GBK 与UNICODE 在汉字的内码编排上完全是不一样的,没有一种简单的算术方法可以把文本内容从UNICODE编码和另一种编码进行转换,这种转换必须通过查表来进行

 

UTF-8, UTF-16

简介: 为了解决UNICODE在网络上传输的问题,面向传输的UTF(UCS Transfer Format)标准出现,UTF-8每次8位传输数据,UTF16每次16个位,只不过为了传输时的可靠性,从UNICODE到 UTF时并不是直接的对应,而是要通过一些算法和规则来转换。

长度: UTF-8 汉字通常占3个字节,扩展B区占4个, UTF-16编码,通常汉字占两个字节,CJKV扩展B区、扩展C区、扩展D区中的汉字占四个字节

 

国内依旧有人使用GBK,这最初是出于空间的考虑,UNICODE体积较大,但随着电脑空间的扩大已经无关紧要,建议统一使用UTF-8!

 

Base64

简介: 某些系统只能使用ASCII,Base64就是用来将非ASCII字符的数据转换成ASCII字符的一种方法,例如图片、文档,特别适合在http,mime协议下快速传输数据。

 

posted @ 2016-11-11 20:19  炎泽  阅读(301)  评论(0编辑  收藏  举报