正确理解和使用GBK及UTF-8网页编码

网页编码英文译为web page encoding，是在网页中指定其特定的字符编码格式的库。

GBK是国家标准GB2312基础上扩容后兼容GB2312的标准。GBK的文字编码是用双字节来表示的，即不论中、英文字符均使用双字节来表示，为了区分中文，将其最高位都设定成1。GBK包含全部中文字符，是国家编码，通用性比UTF8差，不过UTF8占用的数据库比GBK大。

UTF-8：Unicode TransformationFormat-8bit，允许含BOM，但通常不含BOM。是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24为（三个字节）来编码。UTF-8包含全世界所有国家需要用到的字符，是国际编码，通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。如果是UTF8编码，则在外国人的英文IE上也能显示中文，他们无需下载IE的中文语言支持包。

UTF-8版本虽然具有良好的国际兼容性，但中文需要比GBK/BIG5版本多占用50%的数据库存储空间，因此并非推荐使用，仅供对国际兼容性有特殊要求的用户使用。简单地说：对于中文较多的网站，适宜用GBK编码节省数据库空间。对于英文较多的网站，适宜用UTF-8节省数据库空间。

GBK、GB2312等与UTF8如何转换？GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换：GBK、GB2312——Unicode——UTF8；UTF8——Unicode——GBK、GB2312。使用Windows记事本的“另存为”，可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。

如何让浏览器正确识别网页编码？一般在网页中都要有如下一句：<meta http-equiv="Content-Type" content="text/html; charset=gb2312">，指示此网页的字符集编码是GB2312。（或者UTF-8）

页面有时候指定了编码为什么有时会出现乱码？这可能是页面申明编码与文件本身编码不一致，更多时候是以错误编码打开页面然后保存导致的，或者是用某些FTP软件直接在线修改文件，比如CuteFTP，由于软件编码配置错误而导致转换错了编码。这时候使用window的记事本打开，用“另存为”保存为对应的编码即可解决问题。

在windows操作系统上使用IE作为浏览器时，常常会发生这样的问题：在浏览使用UTF-8编码的网页时，浏览器无法自动识别该页面所用的编码，即使网页已经声明过编码格式：<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />，由此造成某些含有中文UTF-8编码的页面产生空白输出。如果使用的是Firefox、Sarafi的浏览器这不会造成这个问题。这是由于IE解析网页编码时以HTML内的标签优先，而后才是HTTP header内的讯息，而mozilla系列的浏览器则刚刚相反。

由于UTF-8为3个字节表示一个汉子，而普通的GB2312或BIG5是两个。页面输出时，由于上述原因，使浏览器解析、输出<title></title>的内容时，如果在</title>前有奇数个全角字符，IE把UTF-8当作两个字节解析时出现半个汉字的情况，这时该半个汉字会和</title>的<结合成一个乱码字，导致IE无法读完<title>部分，使整个页面为空百输出，而这个时候如果察看源文件的话，会发现实际上整个页面全部已经输出了，但浏览器不显示内容。最简单的解决办法是把<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> 放在<title></title>之前。

posted @ 2015-03-13 10:10 小镇男子阅读(3111) 评论(1) 编辑收藏举报

小镇男子

自由在高处...

正确理解和使用GBK及UTF-8网页编码

公告