C#按字节长度截取字符串
产生这个问题的原因是将Substring方法将双字节的汉字当成一个字节的字符(UCS2字符)处理了,导致长度变短。
两个扩展方法按字节长度截取字符串
/// <summary> /// 根据字节长度来截取字符串 /// </summary> ///<param name="origStr">原始字符串</param> ///<param name="length">提取前length个字节</param> /// <returns></returns> public static String SubstringByByte(this string origStr, int length) { byte[] bytes = System.Text.Encoding.Unicode.GetBytes(origStr); int n = 0; // 表示当前的字节数 int i = 0; // 要截取的字节数 for (; i < bytes.GetLength(0) && n < length; i++) { // 偶数位置,如0、2、4等,为UCS2编码中两个字节的第一个字节 if (i%2 == 0) { n++; // 在UCS2第一个字节时n加1 } else { // 当UCS2编码的第二个字节大于0时,该UCS2字符为汉字,一个汉字算两个字节 if (bytes[i] > 0) { n++; } } } // 如果i为奇数时,处理成偶数 if (i%2 == 1) { // 该UCS2字符是汉字时,去掉这个截一半的汉字 if (bytes[i] > 0) i = i - 1; // 该UCS2字符是字母或数字,则保留该字符 else i = i + 1; } return Encoding.Unicode.GetString(bytes, 0, i); } /// <summary> /// 按指定长度(单字节)截取字符串 /// </summary> /// <param name="str">源字符串</param> /// <param name="startIndex">开始索引</param> /// <param name="len">截取字节数</param> /// <returns>string</returns> public static string SubstringByByte(this string str, int startIndex, int len) { if (str == null || str.Trim() == "") { return ""; } if (Encoding.Default.GetByteCount(str) < startIndex + 1 + len) { return str; } int i = 0;//字节数 int j = 0;//实际截取长度 foreach (char newChar in str) { if ((int)newChar > 127) { //汉字 i += 2; } else { i++; } if (i > startIndex + len) { str = str.Substring(startIndex, j); break; } if (i > startIndex) { j++; } } return str; }