C#按字节长度截取字符串

产生这个问题的原因是将Substring方法将双字节的汉字当成一个字节的字符（UCS2字符）处理了，导致长度变短。

两个扩展方法按字节长度截取字符串

        /// <summary>
        /// 根据字节长度来截取字符串
        /// </summary>
        ///<param name="origStr">原始字符串</param>
        ///<param name="length">提取前length个字节</param>
        /// <returns></returns> 
        public static String SubstringByByte(this string origStr, int length)
        {
            byte[] bytes = System.Text.Encoding.Unicode.GetBytes(origStr);
            int n = 0; //  表示当前的字节数
            int i = 0; //  要截取的字节数
            for (; i < bytes.GetLength(0) && n < length; i++)
            {
                //  偶数位置，如0、2、4等，为UCS2编码中两个字节的第一个字节
                if (i%2 == 0)
                {
                    n++; //  在UCS2第一个字节时n加1
                }
                else
                {
                    //  当UCS2编码的第二个字节大于0时，该UCS2字符为汉字，一个汉字算两个字节
                    if (bytes[i] > 0)
                    {
                        n++;
                    }
                }
            }
            //  如果i为奇数时，处理成偶数
            if (i%2 == 1)
            {
                //  该UCS2字符是汉字时，去掉这个截一半的汉字

                if (bytes[i] > 0)
                    i = i - 1;

                    //  该UCS2字符是字母或数字，则保留该字符
                else
                    i = i + 1;
            }
            return Encoding.Unicode.GetString(bytes, 0, i);
        }

        /// <summary>
        /// 按指定长度(单字节)截取字符串
        /// </summary>
        /// <param name="str">源字符串</param>
        /// <param name="startIndex">开始索引</param>
        /// <param name="len">截取字节数</param>
        /// <returns>string</returns>
        public static string SubstringByByte(this string str, int startIndex, int len)
        {
            if (str == null || str.Trim() == "")
            {
                return "";
            }
            if (Encoding.Default.GetByteCount(str) < startIndex + 1 + len)
            {
                return str;
            }
            int i = 0;//字节数
            int j = 0;//实际截取长度
            foreach (char newChar in str)
            {
                if ((int)newChar > 127)
                {
                    //汉字
                    i += 2;
                }
                else
                {
                    i++;
                }
                if (i > startIndex + len)
                {
                    str = str.Substring(startIndex, j);
                    break;
                }
                if (i > startIndex)
                {
                    j++;
                }
            }
            return str;
        }

posted @ 2016-05-04 10:27 有梦想的L先生阅读(2371) 评论(0) 收藏举报

刷新页面返回顶部

Reysl

C#按字节长度截取字符串

公告