Fork me on GitHub

前端也要知道的http(二)---编码方式

ASCII

全称：American Standar Code fr Information Interchange, 美国信息交换标准编码

内容：

大小写字母、数字、标点符号、空格

表示形式：

用连续的字节状态表示，但不包括拓展的字符集

长度：

1个字节 8位

数目大小：

从最初的0~127到后来的0~255，255之后的部分被称之为“拓展字符集”。
后再在发展，是字符集大小终于达到阈值，统一规定0~127不变，后面的都称之为“拓展字符集”

GB2312

简介：

名称为：信息交换用汉字编码字符集，由中国国家标准总局1980年首次发布
GB2312是国人对ASCII字符集的拓展，前0-127不变
利用连续两个超过127的字符表示一个汉字，前一个字节(高字节)从0xA1到0xF7中取出，后一个字节(低字节)从0xA1到0xFE。

内容：

组合成大约7000个简体汉字，也加入数字符号，罗马希腊字母，日文假名等，连原有的字母、数字、标点、空格也重新编成两个字节长
127以上就是“全角字符”，0~127的叫“半角字符”

长度：

0~127一个字节 8位（半角），127以后两个字节 16位（全角）

GBK 与 GB18030

简介：

GBK全称《汉字内码扩展规范》（GBK即“国标”、“扩展”汉语拼音的第一个字母，英文名称：Chinese Internal Code Specification
GBK是对GBK2312的改进，GB18030是对GBK的改进

内容：

更多的汉字，繁体字，符号，GB18030还包括部分少数民族文字

长度：

0~127一个字节 8位（半角），127以后两个字节 16位（全角）

UNICODE

简介：

全称“Universal Multiple-Octet Coded Character Set”，简称UCS
为应对各国都弄出的五花八门的编码方式导致乱了套，ISO废了所以的地区性编码方案，搞出一个包括地球上所有文化，字母和符号的编码

内容：

地球上所有文化，字母和符号的编码

长度：

全部两个字节 16位
但是0-127位的前八位都是0

注意：

Unicode在制定的时候，没有考虑与现有的任何一种字符编码方案兼容，所以使得Unicode与GBK 在哈子的内码上的编排顺序是完全不一样的。
没有一种简单直接的算术方法能够吧Unicode编码与另一种编码进行转换，这种转换必须通过查表来进行。

UTF-8, UTF-16

简介:

8-bit Unicode Transformation Format 是一种针对Unicode的可变长度字符编码，又称万国码。
为了解决UNICODE在网络上传输的问题，面向传输的UTF（UCS Transfer Format）标准出现
UTF-8每次8位传输数据，UTF16每次16个位，只不过为了传输时的可靠性
从UNICODE到 UTF时并不是直接的对应，而是要通过一些算法和规则来转换。

长度:

UTF-8 汉字通常占3个字节，扩展B区占4个
UTF-16编码，通常汉字占两个字节，CJKV扩展B区、扩展C区、扩展D区中的汉字占四个字节

Base64

简介:

某些系统只能使用ASCII，Base64就是用来将非ASCII字符的数据转换成ASCII字符的一种方法，例如图片、文档，特别适合在http，mime协议下快速传输数据。

参考文章：http://www.cnblogs.com/yanze/p/6055505.html 作者：炎泽

posted @ 2016-12-01 15:58 XW_Wong 阅读(214) 评论(0) 编辑收藏举报

刷新页面返回顶部