2013年8月13日

网络爬虫速成指南 (三) 编码识别

摘要: 问题的提出:采用上节的方法偶尔会下载到的HTML乱码,原因是上节的代码中进行了简易的编码识别,比如根据头信息,根据meta中的charset:。即使这样也会遇到下载到乱码的情况,原因是这两者提供的charset都可能不准确。解决方案:1 手动指定编码2 自动识别编码如果只采一个网站,自己指定下编码就... 阅读全文

posted @ 2013-08-13 14:35 雨渐渐 阅读(714) 评论(0) 推荐(0) 编辑

导航