java 字符编码问题

编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。但是要保证汉字不被截半个,如“我ABC4,应该截为“我AB”,输入“我ABCDEF”,6,应该输出为“我ABC”而不是“我ABC+汉的半个

[原理]

我们知道,根据编码的不同,汉字在字符串中所占字节也不一样,如果是UTF-8编码,汉字占3个字节,如果是GBK编码(本文利用的是GBK编码的实现),汉字占2个字节。但是,英文单词在字符串中,始终占用1个字节。所以,把字符串先转化为字符数组和字节数组,然后同时遍历两个数组,比较在数组同位置的值是否相等,如果相等,那么说明该字符是英文字符,如果不相同则说明该字符是中文字符,同时记录下来。大致原理就是这样的,大家看代码实现

 1 public static String substr(String text, int maxLen) throws Exception {
 2     if (text == null) return null;
 3     StringBuilder buf = new StringBuilder();
 4     int i = 0;
 5     for (char ch : text.toCharArray()) {
 6         i += String.valueOf(ch).getBytes("GBK").length;
 7         if (i > maxLen) break;
 8         buf.append(ch);
 9     }
10     return buf.toString();
11 }
12 
13 public static void main(String[] args) throws Exception {
14     String text = "我ABC汉DEF";
15     System.out.println(substr(text, 6));
16 }

 

posted @ 2013-10-15 22:53  feiling  阅读(342)  评论(0编辑  收藏  举报