2014 年 3月 2 日随笔档案 - 懒惰的肥兔

2014年3月2日

摘要：在做一些需要抓取网页的项目时，经常性的遇到乱码问题。最省事的做法是去需要抓取的网站看看具体是什么编码，然后采用正确的编码进行解码就OK了，不过总是一个个页面亲自去判断也不是个事儿，尤其是你需要大量抓取不同站点的页面时，比如网页爬虫类的程序，这时我们需要做一个相对比较通用的程序，进行页面编码的正确识别。乱码问题基本上都是编码不一致导致的，比如网页编码使用的是UTF-8，你使用GB2312去读取，肯定会乱码。知道了本质问题后剩下的就是如何判断网页编码了。GBK、GB2312、UTF-8、BIG-5，一般来说遇到的中文网页编码大多是这几种，简化下就是只有 GBK和UTF-8两种，不夸张的说，现在的网阅读全文

posted @ 2014-03-02 18:00 懒惰的肥兔阅读(8756) 评论(17) 推荐(4) 编辑

公告