会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
袜子破了
博客园
首页
新随笔
联系
订阅
管理
2017年5月22日
用juniversalchardet解决爬虫乱码问题
摘要: 爬虫往往会遇到乱码问题。最简单的方法是根据http的响应信息来获取编码信息。但如果对方网站的响应信息不包含编码信息或编码信息错误,那么爬虫取下来的信息就很可能是乱码。 好的解决办法是直接根据页面内容来自动判断页面的编码。如Mozilla公司的firefox使用的universalchardet编码自
阅读全文
posted @ 2017-05-22 10:30 袜子破了
阅读(3836)
评论(1)
推荐(0)
编辑