mysql字符集编码乱码测试如下

创建三个表tb_latin1,tb_utf8,tb_gbk,编码分别为latin1/utf8/gbk

“你好a”字符串编码如下
GBK : %C4%E3 %BA%C3 %61
UTF-8 : %E4%BD%A0 %E5%A5%BD %61

测试代码如下

<?php
//fileencoding=gb2312
mysql_query("set names gbk");
mysql_query("insert into test.tb_latin values('gbk', '你好a')");
/*
    连接的字符集是GBK,一个字符由一到两个字节表示,传入 %C4%E3 %BA%C3 %61
    存储的字符集是latin1,一个字符由一个字节表示

    mysql将传入的三个字符转换为latin1的三个字符变成 %3F(找不到对应的转换对应表表) %3F %61

    导致数据存储错误(??a) (存储占用3字节)
*/
mysql_query("insert into test.tb_utf8 values('gbk', '你好a')");
/*
    连接的字符集是GBK,一个字符由一到两个字节表示,传入 %C4%E3 %BA%C3 %61
    存储的字符集是utf8,一个字符由一到四个字节表示

    mysql将传入的三个字符转换为utf8的三个字符变成 %E4%BD%A0 %E5%A5%BD %61(存储占用7字节)

    读取时连接设置为UTF-8和GB2312都可以,但指定为latin1会出现转码失败返回错误内容(??a)
    UTF-8返回7字节,GB2312返回5字节
*/
mysql_query("insert into test.tb_gbk values('gbk', '你好a')");
/*
    连接的字符集是GBK,一个字符由一到两个字节表示,传入 %C4%E3 %BA%C3 %61
    存储的字符集是GBK,保存为 %C4%E3 %BA%C3 %61 存储占用5字节

    读取时连接设置为UTF-8和GB2312都可以,但指定为latin1会出现转码失败返回错误内容(??a)
    UTF-8返回7字节,GB2312返回5字节 
*/
?>
<?php
//fileencoding=gb2312
mysql_query("set names latin1");
mysql_query("insert into test.tb_latin values('gblatin1', '你好a')");
/*
    连接的字符集是latin1,一个字符由一个字节表示,传入 %C4 %E3 %BA %C3 %61
    存储的字符集是latin1,一个字符由一到四个字节表示,存储为 %C4 %E3 %BA %C3 %61 (存储占用5字节)

    读取时连接编码为latin1,前端获取五个字符(%C4 %E3 %BA %C3 %61)
        如果vim(term)环境如果正好是gb2312编码环境则显示文本“你好a”
        如果vim(term)显示环境编码为latin1,显示(乱码)
        如果vim(term)语言环境为utf8,转码(由latin1转UTF8)会失败显示(???a)
    读取时连接为gbk,mysql无法将五个字符转成5个相应的gbk编码,返回(????a)错误内容
    读取时连接为utf8,mysql将五个字符转换为 %C3%84 %C3%A3 %C2%BA %C3%83 %61 错误内容,具体呈现看term编码
*/
mysql_query("insert into test.tb_utf8 values('gblatin1', '你好a')");
/*
    连接的字符集是latin1,一个字符由一个字节表示,传入 %C4 %E3 %BA %C3 %61
    存储的字符集是utf8,一个字符由一个字节表示,存储为 %C3%84 %C3%A3 %C2%BA %C3%83 %61 (存储占用5字节)

    读取时连接编码为latin1,前端获取五个字符(%C4 %E3 %BA %C3 %61) (mysql把错误的编码转为latin1)
        如果vim(term)环境如果正好是gb2312编码环境则显示文本“你好a”
        如果vim(term)显示环境编码为latin1,显示(乱码)
        如果vim(term)语言环境为utf8,转码(由latin1转UTF8)会失败显示(???a)
    读取时连接为gbk,mysql无法将五个字符转成5个相应的gbk编码,返回(????a)错误内容
    读取时连接为utf8,mysql将五个字符转换为 %C3%84 %C3%A3 %C2%BA %C3%83 %61 错误内容,具体呈现看term编码
*/
mysql_query("insert into test.tb_gbk values('gblatin1', '你好a')");
/*
    连接的字符集是latin1,一个字符由一个字节表示,传入 %C4 %E3 %BA %C3 %61
    存储的字符集是gbk,一个字符由一到两个字节表示,mysql无法将五个字符转成5个相应的gbk编码,存储(????a)错误内容
*/
?>
<?php
//fileencoding=utf8
mysql_query("set names utf8");
mysql_query("insert into test.tb_latin1 values('utf8', '你好')");
/*
    连接的字符集是UTF-8,一个字符由一到四个字节表示,传入 %E4%BD%A0 %E5%A5%BD %61
    存储的字符集是latin1,一个字符由一个字节表示

    mysql将传入的三个字符转换为latin1的三个字符变成 %3F(找不到对应的转换对应表表) %3F %61

    导致数据存储错误(??a) (存储占用3字节)
*/
mysql_query("insert into test.tb_utf8 values('utf8', '你好')");
/*
    连接的字符集是UTF-8,一个字符由一到四个字节表示,传入 %E4%BD%A0 %E5%A5%BD %61
    存储的字符集是utf8,一个字符由一到四个字节表示,存储 %E4%BD%A0 %E5%A5%BD %61

    读取时连接设置为UTF-8和GB2312都可以,但指定为latin1会出现转码失败返回错误内容(??a)
    UTF-8返回7字节,GB2312返回5字节
*/
mysql_query("insert into test.tb_gbk values('utf8', '你好')");
/*
    连接的字符集是UTF-8,一个字符由一到四个字节表示,传入 %E4%BD%A0 %E5%A5%BD %61
    存储的字符集是GBK,保存为 %C4%E3 %BA%C3 %61 存储占用5字节

    读取时连接设置为UTF-8和GB2312都可以,但指定为latin1会出现转码失败返回错误内容(??a)
    UTF-8返回7字节,GB2312返回5字节 
*/
?>
<?php
//fileencoding=utf8
mysql_query("set names latin1");
mysql_query("insert into test.tb_latin values('latin1', '你好')");
/*
    连接的字符集是latin1,一个字符由一个字节表示,传入 %E4 %BD %A0 %E5 %A5 %BD %61
    存储的字符集是latin1,一个字符由一个字节表示,存储为 %E4 %BD %A0 %E5 %A5 %BD %61 (存储占用7字节)

    读取时连接编码为latin1,前端获取七个字符(%E4 %BD %A0 %E5 %A5 %BD %61)
        如果vim(term)环境如果正好是UTF8编码环境则显示文本“你好a”
        如果vim(term)显示环境编码为latin1,显示(乱码)
        如果vim(term)语言环境为gbk,乱码
    读取时连接为gbk,mysql无法将七个字符转成对应的七个相应的gbk编码,返回(??????a)错误内容
    读取时连接为utf8,mysql将七个字符转换为 %c3%a4 %c2%bd %c2%a0 %c3%a5 %c2%a5 %c2%bd %61 内容返回(显示错误)
*/
mysql_query("insert into test.tb_utf8 values('latin1', '你好')");
/*
    连接的字符集是latin1,一个字符由一个字节表示,传入 %E4 %BD %A0 %E5 %A5 %BD %61
    存储的字符集是utf8,一个字符由一个到四个字节表示,存储为 %c3%a4 %c2%bd %c2%a0 %c3%a5 %c2%a5 %c2%bd %61 (存储占用13字节,业务侧需转为latin1方可显示正确内容)

    读取时连接编码为latin1,前端获取五个字符(%E4 %BD %A0 %E5 %A5 %BD %61) (mysql把13个字节的7个字符转为latin1)
        如果vim(term)环境如果正好是utf8编码环境则显示文本“你好a”
        如果vim(term)显示环境编码为latin1,显示(乱码)
        如果vim(term)语言环境为gbk,乱码
    读取时连接为gbk,mysql无法将7个字符转成7个相应的gbk编码,返回(??????a)错误内容
    读取时连接为utf8,mysql将五个字符转换为 %c3%a4 %c2%bd %c2%a0 %c3%a5 %c2%a5 %c2%bd %61 错误内容,具体呈现看term编码
*/
mysql_query("insert into test.tb_gbk values('latin1', '你好')");
/*
    连接的字符集是latin1,一个字符由一个字节表示,传入 %E4 %BD %A0 %E5 %A5 %BD %61
    存储的字符集是gbk,一个字符由一到两个字节表示,mysql无法将7个字符转成7个相应的gbk编码,存储(??????a)错误内容
*/
?>

数据库查询如下

mysql> select charset, data,length(data) from tb_latin;
+----------+---------+--------------+
| charset  | data    | length(data) |
+----------+---------+--------------+
| gbk      | ??a     |            3 |
| gblatin1 | ????a   |            5 |
| utf8     | ??a     |            3 |
| latin1   | ??????a |            7 |
+----------+---------+--------------+
4 rows in set (0.00 sec)

mysql> select charset, data,length(data) from tb_utf8;
+----------+---------+--------------+
| charset  | data    | length(data) |
+----------+---------+--------------+
| gbk      | ???a   |            7 |
| gblatin1 | ????a   |            9 |
| utf8     | ???a   |            7 |
| latin1   | ??????a |           13 |
+----------+---------+--------------+
4 rows in set (0.00 sec)

mysql> select charset, data,length(data) from tb_gbk;
+----------+---------+--------------+
| charset  | data    | length(data) |
+----------+---------+--------------+
| gbk      | ???a   |            5 |
| gblatin1 | ????a   |            5 |
| utf8     | ???a   |            5 |
| latin1   | ??????a |            7 |
+----------+---------+--------------+

附测试代码如下:

<?php
//...
mysql_query("set names latin1");
$result=mysql_query("SELECT * FROM test.tb_gbk where charset='latin1'");
while($row=mysql_fetch_row($result))
{
var_dump($row);
echo bin2hex($row[1]);
}
?>

 

<?php

$a="%c3%a4%c2%bd%c2%a0%c3%a5%c2%a5%c2%bd%61";
$b = urldecode($a);
var_dump(bin2hex($b));
$c = iconv("UTF-8","latin1",$b);
var_dump(bin2hex($c));

?>

 

posted @ 2015-10-18 13:05  ciaos  阅读(748)  评论(0编辑  收藏  举报