java里面字符集和Charset类

这里涉及两个概念:编码、解码。

编码(encode):把明文的字符序列转化成二进制的字节序列。

解码(decode):把二进制的字节序列转换成明文的字符序列。

java默认的使用Unicode字符集,但是有的操作系统不支持,所以当从操作系统读取到java程序的时候,就可能出现乱码的情况。

jdk1.4提供了Charset类来处理字节序列和字符序列之间的转换。Charset类是不可变类

Charset类提供了一个availiableCharset()静态方法来获取当前jdk支持的所有字符集。

常用的字符集:

GBK:简体中文。BIG5:繁体中文。ISO-8859-1:ISO拉丁字母表No.1,也叫ISO-LATIN-1.UTF-8:8位UCS转换格式。

知道了字符集的别名之后,就可以使用Charset的forName()方法,创建字符集对象。如下

Charset cs = Charset.forName("UTF-8");

获得Charset对象之后就可以调用该对象的newDecode()/newEncode()这两个方法返回CharsetDecoder/CharsetEncoder对象,这两个对象代表Chars的解码器和编码器。调用CharsetDecoder的decode方法就可以将字符序列字节序列转换成字符序列(ByteBuffer)->(CharBuffer),同理调用encode就可以将字符序列转换成字节序列

(CharBuffer)->(ByteBuffer).

(String)->(ByteBuffer)

在String类里面提供了一个getBytes(String charset)方法。该方法返回byte[],该方法同样可以将制定字符集转换成字节序列。

 

posted on 2016-03-22 09:34  爱学习爱生活223  阅读(4325)  评论(0编辑  收藏  举报

导航