PHP UTF-8字符串截断函数实现中文字符的无乱码截断

PHP内置的substr()函数不能对中文字符进行很好的截断处理，对于一些中英文混合的字符会出现乱码的情况。下面提供两种解决函数。

1、GB2312编码方式的截断、

 1 function msubstr($str, $start, $len) { 
 2 
 3    if (strlen($str)-$start < $len)  return false;
 4 
 5     $tmpstr = "";
 6 
 7     $strlen = $start + $len;
 8 
 9      for($i = 0; $i < $strlen; $i++) {
10 
11          if(ord(substr($str, $i, 1)) > 0xa0) {   //0xa0 表示中文汉字编码的第一个编码字符ASCII 码值都大于0xa0
12 
13             $tmpstr .= substr($str, $i, 2);
14 
15             $i++;
16 
17          } else
18 
19             $tmpstr .= substr($str, $i, 1);
20 
21      }
22 
23      return $tmpstr . "...";
24 
25 }

2、utf8格式下的中文字符截断

UTF-8编码的字符可能由1~3个字节组成，具体数目可以由第一个字节判断出来。(理论上可能更长，但这里假设不超过3个字节)

第一个字节大于224的，它与它之后的2个字节一起组成一个UTF-8字符

第一个字节大于192小于224的，它与它之后的1个字节组成一个UTF-8字符

否则第一个字节本身就是一个英文字符（包括数字和一小部分标点符号）。

 1 //$sourcestr 是要处理的字符串
 2 
 3 //$cutlength 为截取的长度(即字数)
 4 
 5 function cut_str($sourcestr,$cutlength)
 6 
 7 {
 8 
 9    $returnstr='';
10 
11    $i=0;
12 
13    $n=0;
14 
15    $str_length=strlen($sourcestr);//字符串的字节数
16 
17    while (($n<$cutlength) and ($i<=$str_length))
18 
19     {
20 
21       $temp_str=substr($sourcestr,$i,1);
22 
23       $ascnum=Ord($temp_str);//得到字符串中第$i位字符的ascii码
24 
25       if ($ascnum>=224)    //如果ASCII位高与224，
26 
27       {
28 
29          $returnstr=$returnstr.substr($sourcestr,$i,3); //根据UTF-8编码规范，将3个连续的字符计为单个字符         
30 
31          $i=$i+3;            //实际Byte计为3
32 
33          $n++;            //字串长度计1
34 
35       }
36 
37        elseif ($ascnum>=192) //如果ASCII位高与192，
38 
39       {
40 
41          $returnstr=$returnstr.substr($sourcestr,$i,2); //根据UTF-8编码规范，将2个连续的字符计为单个字符
42 
43          $i=$i+2;            //实际Byte计为2
44 
45          $n++;            //字串长度计1
46 
47       }
48 
49        elseif ($ascnum>=65 && $ascnum<=90) //如果是大写字母，
50 
51       {
52 
53          $returnstr=$returnstr.substr($sourcestr,$i,1);
54 
55          $i=$i+1;            //实际的Byte数仍计1个
56 
57          $n++;            //但考虑整体美观，大写字母计成一个高位字符
58 
59       }
60 
61        else                //其他情况下，包括小写字母和半角标点符号，
62 
63       {
64 
65          $returnstr=$returnstr.substr($sourcestr,$i,1);
66 
67          $i=$i+1;            //实际的Byte数计1个
68 
69          $n=$n+0.5;        //小写字母和半角标点等与半个高位字符宽...
70 
71       }
72 
73     }
74 
75           if ($str_length>$cutlength){
76 
77           $returnstr = $returnstr . "...";//超过长度时在尾处加上省略号
78 
79       }
80 
81      return $returnstr;
82 
83 }

参考：http://bupt-roy.iteye.com/blog/1179016

http://zww.me/archives/25356

http://imluren.com/2011/04/php-utf8-substr.html/comment-page-1

posted @ 2012-05-01 15:27 令狐葱★ 阅读(1117) 评论(0) 编辑收藏举报

刷新页面返回顶部

令狐葱@Web前端开发

关注互联网，关注web开发，关注前端技术. Github@jiji262

PHP UTF-8字符串截断函数实现中文字符的无乱码截断

公告