[python3 - TroubleShooting] requests爬取中文网站后直接print，以及保存csv乱码

问题：

背景：

尝试：

直接print page; 写入csv文件的时候, 不指定编码
- writerow()报错 - UnicodeEncodeError: 'gbk' codec can't encode character '\xe6' in position 0: illegal multibyte sequence
直接print page; 写入csv文件的时候，encoding='gbk'
- 报错同上
直接print page; 写入csv文件时，encoding='utf-8'
- print/csv乱码1
page.encode('utf-8').decode('gbk') - 对page进行utf-8编码后用gbk解码
- print/csv乱码1
page.encode('gbk','ignore').decode('gbk')；写入csv时，encoding='gbk' - 对page进行gbk编码后用gbk解码
- print/csv乱码2
page.encode('gbk','ignore').decode('gbk')；写入csv时，encoding='utf-8' - 对page进行gbk编码后用gbk解码
- print乱码2/csv乱码3
page.encode(resquests.get().encoding).decode('gbk'); 写入csv时，encoding='utf-8'
- print正常显示/csv乱码4
page.encode(resquests.get().encoding).decode('gbk'); 写入csv时，encoding='gbk'
- 都正常显示
page.encode(resquests.get().encoding).decode('gbk'); 写入csv时，不指定编码
- 都正常显示

结论：

posted @ 2018-05-16 07:36 break大蜗牛阅读(196) 评论(0) 编辑收藏举报

刷新页面返回顶部

break大蜗牛