计算机编码方式简介

1.计算机开始阶段
一开始运行在美国，美国的科学家为了能够让计算机认识人类语言。就开始编写编码方式。他们常将用的英文字母、标点符号、以及空格和制表符等所有的字符排列在一起，然后用二进制表示，就出现了一开始的ASCII编码，占有8字节，第一位为0。ASCII第一次以规范标准的类型发表是在1967年。
ASCII编码段介绍：
* 0～31及127(共33个)是控制字符或通信专用字符（其余为可显示字符）
* 32～126(共95个)是字符(32是空格），其中48～57为0到9十个阿拉伯数字。1.
* 65～90为26个大写英文字母，97～122号为26个小写英文字母，其余为一些标点符号、运算符号等。
2.计算机发展阶段
后来随着计算机的发展，其他国家也开始使用计算机。都开始效仿美国开始了自己的编码，一开始美国占用了0000 0000 –0111 1111共有127位。其他国家就是要剩下了128位
后来计算机之间开始通信，发现将美国电脑上的东西拷贝到其他国家电脑上会出现乱码。因为每个国家的编码都是相互独立的，所以就会导致计算机不能进行编码出现乱码。
在这个阶段出现的编码方式有 1.在1981年IBM PC ROM256个字符的字符集，即IBM扩展字符集， 2. 1985年11Windows字符集被称作“ANSI字符集”，遵循了ANSI草案和ISO标准（ANSI/ISO8859-1-1987，简“Latin 1”
3.之后就开始了编码三阶段
Unicode编码
unicode编码系统分为两个分部：一部分是编码方式，一部分是实现方式
为了形成全世界性规范，伟大的人类在ASCII基础之上制定了unicode字符集，包含了所有国家的字母和字符，同时扩展到4bity，也就是32位
同时32位会存在一些问题，英文字母也需要32位，这样就会面临浪费很多内存空间的问题。为了解决这个问题，人类就提出来unicode编码不同的实现方式。
目前主流的集中实现方式，utf-8，utf-16，Utf-32
此部分主要讲解Utf-8实现方式。

首先看一下utf-8的编码：
Unicode 十六进制码点范围 UTF-8 二进制
0000 0000 - 0000 007F 0xxxxxxx
0000 0080 - 0000 07FF 110xxxxx 10xxxxxx
0000 0800 - 0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx
0001 0000 - 0010 FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
上图是unicode编码对应的utf8编码格式，
当字符对应的unicode编码位于0x0000 0000 到 0x0000 007F
对应的UTF-8 二进制就是将十六进制转成2进制就行了
其实这是就是指ASCII编码。
当字符对应的unicode编码位于 0x0000 0080 到 0x0000 07FF
这一段范围是指一下拉丁字母，和一些彝文字母
当字符对应的unicode编码位于0x0000 0800 到 0x0000 FFFF
这一段主要就是用来表示汉字，所以就会有在utf-8中汉字占三个字节。
当字符对应的unicode编码位于 0x0001 0000 到 0x0010 FFFF
找了好久也没有具体的发现。
接下来以刘为例子讲解一下unicode编码utf-8实现方式

posted @ 2020-07-07 20:06 杭杭试试阅读(526) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

杭杭试试

计算机编码方式简介

公告