UnicodeDecodeError: ‘gbk' codec can't decode bytes in position : illegal multibyte sequence

错误信息:

UnicodeDecodeError: ‘gbk' codec can't decode bytes in position : illegal multibyte sequence

这是因为遇到了非法字符,因此在转码的过程中出现了异常。具体哪些字符是非法字符我也搞不清。

[解决办法]

将获取的字符串strTxt做decode时,指明ignore,会忽略非法字符,这样就可以了

inStr2 = inStr.decode('utf-8', 'ignore')

[补充]

默认的参数就是strict,代表遇到非法字符时抛出异常;
如果设置为ignore,则会忽略非法字符;
如果设置为replace,则会用?号取代非法字符;
如果设置为xmlcharrefreplace,则使用XML的字符引用。

posted @ 2020-07-14 10:59  hanfe1  阅读(750)  评论(0编辑  收藏  举报