爬取网页内容后写入文件报错UnicodeEncodeError: 'gbk' codec can't encode的问题解决方案

老猿使用如下代码读取网页内容：
req = urllib.request.Request(url=url,headers=header)
text = urllib.request.urlopen(req).read().decode()
fp = open(r’c:\temp\testhtml.txt’,‘a+’)
fp.write(text)
fp.close()
执行时读取网页内容都没有问题，在写入文件时报错：
fp.write(text)
UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa0’ in position XXXX: illegal multibyte sequence。
老猿分析了一下报错原因，给出的错误是Unicode编码错误，不能使用gbk编码。而网页读取后调用的decode是默认解码，应该是utf-8，因此只需要将上述文件打开方式改成如下就可以了：
fp = open(r’c:\temp\testhtml.txt’,‘a+’， encoding=‘utf-8’)
验证测试ok。

老猿Python，跟老猿学Python!
博客地址：https://blog.csdn.net/LaoYuanPython
老猿Python博客文章目录：https://blog.csdn.net/LaoYuanPython/article/details/98245036
请大家多多支持，点赞、评论和加关注！谢谢！

posted @ 2019-09-08 17:39 老猿学Python 阅读(206) 评论(0) 收藏举报

刷新页面返回顶部

老猿学Python

爬取网页内容后写入文件报错UnicodeEncodeError: 'gbk' codec can't encode的问题解决方案

公告