/* * 此函数将unicode编码字串转为utf8编码字符串 * 参数 str ,unicode编码的字符串。 * 参数 order ,unicode字串的存放次序,为big endian还是little endian. * 返回 utf8string , 转换过的字符串。 * bailing * 2007-12-26 */ function unicodeToUtf8($str,$order="little") { $utf8string =""; $n=strlen($str); for ($i=0;$i<$n ;$i++ ) { if ($order=="little") { $val = dechex(ord($str[$i+1])).dechex(ord($str[$i])); } else { $val = dechex(ord($str[$i])).dechex(ord($str[$i+1])); } $val = intval($val,16); //由于上次的.连接,导致$val变为字符串,这里得转回来。 $i++; //两个字节表示一个unicode字符。 $c = ""; if($val < 0x7F){ // 0000-007F $c .= chr($val); }elseif($val < 0x800) { // 0080-0800 $c .= chr(0xC0 | ($val / 64)); $c .= chr(0x80 | ($val % 64)); }else{ // 0800-FFFF $c .= chr(0xE0 | (($val / 64) / 64)); $c .= chr(0x80 | (($val / 64) % 64)); $c .= chr(0x80 | ($val % 64)); //echot($c); } $utf8string .= $c; } return $utf8string; } // end func /** * 此函数将utf8编码字串转为unicode编码字符串 * 参数 str ,utf8编码的字符串。 * 参数 order,存放数据格式,是big endian还是little endian,默认的unicode存放次序是little. * 如:"大"的unicode码是 5927。little方式存放即为:27 59 。big方式则顺序不变:59 27. * little 存放格式文件的开头均需有FF FE。big 存放方式的文件开头为 FE FF。否则。将会产生严重混乱。 * 本函数只转换字符,不负责增加头部。 * iconv转换过来的字符串是 big endian存放的。 * 返回 ucs2string , 转换过的字符串。 * 感谢唠叨(xuzuning)提供的算法思路。 * 作者 : gu1dai */ function utf8ToUnicode($str,$order="little") { $ucs2string =""; $n=strlen($str); for ($i=0;$i<$n ;$i++ ) { $v = $str[$i]; $ord = ord($v); if( $ord<=0x7F){ // 0xxxxxxx if ($order=="little") { $ucs2string .= $v.chr(0); } else { $ucs2string .= chr(0).$v; } } elseif ($ord<0xE0 && ord($str[$i+1])>0x80) { //110xxxxx 10xxxxxx $a = (ord($str[$i]) & 0x3F )<<6; $b = ord($str[$i+1]) & 0x3F ; $ucsCode = dechex($a+$b); //echot($ucsCode); $h = intval(substr($ucsCode,0,2),16); $l = intval(substr($ucsCode,2,2),16); if ($order=="little") { $ucs2string .= chr($l).chr($h); } else { $ucs2string .= chr($h).chr($l); } $i++; }elseif ($ord<0xF0 && ord($str[$i+1])>0x80 && ord($str[$i+2])>0x80) { //1110xxxx 10xxxxxx 10xxxxxx $a = (ord($str[$i]) & 0x1F)<<12; $b = (ord($str[$i+1]) & 0x3F )<<6; $c = ord($str[$i+2]) & 0x3F ; $ucsCode = dechex($a+$b+$c); //echot($ucsCode); $h = intval(substr($ucsCode,0,2),16); $l = intval(substr($ucsCode,2,2),16); if ($order=="little") { $ucs2string .= chr($l).chr($h); } else { $ucs2string .= chr($h).chr($l); } $i +=2; } } return $ucs2string; } // end func //下面这个函数本来是简化版的,但是发现有问题 /** * * 把utf8编码字符转为ucs-2编码 * 参数 utf8编码的字符。 * 返回 该字符的unicode码值。知道了码值,你就可以使用chr将字符弄出来了。 * * 原理:unicode转为utf-8码的算法是。头部固定位或。 该过程的逆向算法就是这个函数了,头部固定位反位与。 */ function utf2ucs($str){ $n=strlen($str); if ($n=3) { $highCode = ord($str[0]); $midCode = ord($str[1]); $lowCode = ord($str[2]); $a = 0x1F & $highCode; $b = 0x3F & $midCode; $c = 0x3F & $lowCode; $ucsCode = (64*$a + $b)*64 + $c; } elseif ($n==2) { $highCode = ord($str[0]); $lowCode = ord($str[1]); $a = 0x3F & $highCode; //0x3F是0xC0的补数 $b = 0x3F & $lowCode; //0x7F是0x80的补数 $ucsCode = 64*$a + $b; } elseif($n==1) { $ucscode = ord($str); } return dechex($ucsCode); }