2017年5月22日
摘要: 爬虫往往会遇到乱码问题。最简单的方法是根据http的响应信息来获取编码信息。但如果对方网站的响应信息不包含编码信息或编码信息错误,那么爬虫取下来的信息就很可能是乱码。 好的解决办法是直接根据页面内容来自动判断页面的编码。如Mozilla公司的firefox使用的universalchardet编码自 阅读全文
posted @ 2017-05-22 10:30 袜子破了 阅读(3836) 评论(1) 推荐(0) 编辑