java 字符编码问题
编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。但是要保证汉字不被截半个,如“我ABC”4,应该截为“我AB”,输入“我ABC汉DEF”,6,应该输出为“我ABC”而不是“我ABC+汉的半个
[原理]
我们知道,根据编码的不同,汉字在字符串中所占字节也不一样,如果是UTF-8编码,汉字占3个字节,如果是GBK编码(本文利用的是GBK编码的实现),汉字占2个字节。但是,英文单词在字符串中,始终占用1个字节。所以,把字符串先转化为字符数组和字节数组,然后同时遍历两个数组,比较在数组同位置的值是否相等,如果相等,那么说明该字符是英文字符,如果不相同则说明该字符是中文字符,同时记录下来。大致原理就是这样的,大家看代码实现
1 public static String substr(String text, int maxLen) throws Exception { 2 if (text == null) return null; 3 StringBuilder buf = new StringBuilder(); 4 int i = 0; 5 for (char ch : text.toCharArray()) { 6 i += String.valueOf(ch).getBytes("GBK").length; 7 if (i > maxLen) break; 8 buf.append(ch); 9 } 10 return buf.toString(); 11 } 12 13 public static void main(String[] args) throws Exception { 14 String text = "我ABC汉DEF"; 15 System.out.println(substr(text, 6)); 16 }