摘要:
众所周知,字符的编码方式有两种惯例,一种是很古老的对ASCII码做某种语言子集的扩展,比如big5和gb2312,分别是繁体字扩展和简体字扩展,两者互不兼容,与之类似的编码还有ISO系列,各个拉丁文的子编码集合也不相互兼容,这种编码的好处是编码集合很小,坏处是不能同时使用多种语言,于是就有了另一种编码惯例:“万国码”,全球所有语言做成一个码表,即unicode码 表,显然,这种编码的坏处是码表太庞大,好处是同时使用多种语言。所谓的utf-7、utf-8之类就是unicode的某种相对高效的实现,不管某个字 符用utf编码为几个字节,他们都属于同一个unicode超集。我们常遇到的中文编码是gb 阅读全文
摘要:
例如给出字串: %B4%BA或 %E6%98%A5如何判断应该是使用UTF-8还是GBK进行URLDecode?思路1 通用方法:假定它是 GBK 的编码 ,则将其转换成 utf-8 然后再转换回来后与没有转换之前是相等的。这样假设成立,也就是GBK编码。思路2iconv转换编码时 如果转换遇到错误 会抛出异常 扑捉异常即可 <?php //测试url编码到底是gbk 还是utf8编码 $url="%B4%BA"; check_type1($url); check_type2($url); function check_type1($url){ ... 阅读全文