编码

GB2312

GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆;新加坡等地也采用此编码。

对于人名、古汉语等方面出现的罕用字,GB 2312不能处理,这导致了后来GBK及GB 18030汉字字符集的出现。

ISO-8859-1

通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符。

以ISO-8859-1编码的文本,都以bytes[]的形式保存,若要显示中文,只需以显示平台的默认编码格式进行解码即可。若仍然以ISO-8859-1格式解码,得到的中文字符肯定是乱码,因为ISO-8859-1自身不能显示中文。

Java内部字符串String用得都是Unicode编码,所以Java内部的字符串可以说是没有编码的,只有bytes[]有编码!但是java平台是有编码的,编码为平台(操作系统)默认编码,但是对于别的平台如数据库、文件、网页(浏览器)等,编码不一样!

UTF-8
是 UNICODE 的一种变长字符编码,即 RFC 3629。简单的说——大字符集。可以解决多种语言文本显示问题,从而实现应用国际化和本地化。UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。

ASCII码

它能表示128个字符,其中包括英文字符、阿拉伯数字、西文字符以及32个控制字符。它用一个字节来表示具体的字符,但它只用后7位来表示字符(2^7=128),最前面的一位统一规定为0。

Unicode符号集

Unicode就是这样一种编码:它包含了世界上所有的符号,并且每一个符号都是独一无二的。

 

posted @ 2017-04-26 19:27  清风追梦enjoy  阅读(191)  评论(0编辑  收藏  举报