2013 年 8月 13 日随笔档案 - 雨渐渐

2013年8月13日

网络爬虫速成指南（三）编码识别

摘要：问题的提出：采用上节的方法偶尔会下载到的HTML乱码，原因是上节的代码中进行了简易的编码识别，比如根据头信息，根据meta中的charset：。即使这样也会遇到下载到乱码的情况，原因是这两者提供的charset都可能不准确。解决方案：1 手动指定编码2 自动识别编码如果只采一个网站，自己指定下编码就... 阅读全文

posted @ 2013-08-13 14:35 雨渐渐阅读(714) 评论(0) 推荐(0) 编辑

雨渐渐

网络爬虫速成指南（三）编码识别

导航

公告

雨渐渐

网络爬虫速成指南 （三） 编码识别

导航

公告

网络爬虫速成指南（三）编码识别