其他文本编码

1、ISO-8859-1
ISO-8859-1是大多数浏览器的默认字符集,也是html 4.01中的默认字符。
该编码又称为Latin--1或西欧语言,占1个字节,属于扩展ascci编码的一种。
前128个字符兼容ascii基础码。后128个字符包含了一些被西欧国家使用的字符以及一些常用的特殊字符。
具体映射关系:http://yige.org/tags/ref_entities.php

2、gb2312
(1)gb2312是由中国国家标准总局1980年发布的《信息交互用汉字编码字符集》
(2)属于双字节编码。基本集共收入汉字6763个和非汉字图形字符682个。

3、GBK
(1)简称国标码,1995年在gb2312的基础上扩充得到《汉字编码扩展规范》,即后者兼容前者
(2)包含全部中、日、韩(CJK)汉字,共计21003字。
(3)gbk也是双字节编码方案。严格来说,GBK是采用单双字节变长编码,英文使用单字节编码,完全兼容ASCII字符编码,中文部分采用双字节编码。

4、big5
又称为大五码或五大码,是使用繁体中文(正体中文)社区中最常用的电脑汉字字符集标准,共收录13,060个汉字。
Big5码是一套双字节字符集,使用了双八码存储方法,以两个字节来安放一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。
big5本身存在较严重的冲突问题,且各厂商及政府退出的big5延伸互不兼容,因此目前逐步放弃,改为unicode编码

5、ANSI
(1)ANSI编码是windows下记事本工具,另存时可选的一个编码方案
(2)ascii基础码能且只能表示128个字符,即0x00-0x7f。为了使计算机支持更多语言,通常使用 0x80~0xFFFF范围的2个字节来表示1个字符
(3)不同的国家和地区制定了不同的标准,而这些使用多个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。
在简体中文Windows操作系统中,ANSI 编码代表 GB2312编码;在繁体中文Windows操作系统中,ANSI编码代表Big5;在日文Windows操作系统中,ANSI 编码代表 JIS 编码

posted @ 2023-07-29 15:34  挖洞404  阅读(11)  评论(0编辑  收藏  举报