UnicodeDecodeError: ‘XXX' codec can't decode bytes in position X 的问题 - 小鸡喝饼

公告

UnicodeDecodeError: ‘XXX' codec can't decode bytes in position X 的问题

错误信息：
UnicodeDecodeError: ‘XXX' codec can't decode bytes in position 2-5: illegal multibyte sequence
这是因为遇到了非法字符，例如：全角空格往往有多种不同的实现方式，比如\xa3\xa0，或者\xa4\x57，
这些字符，看起来都是全角空格，但它们并不是“合法”的全角空格
真正的全角空格是\xa1\xa1，因此在转码的过程中出现了异常。
而之前在处理新浪微博数据时，遇到了非法空格问题导致无法正确解析数据。

解决办法：
#将获取的字符串strTxt做decode时，指明ignore，会忽略非法字符,
#当然对于gbk等编码，处理同样问题的方法是类似的

strTest = strTxt.decode('utf-8', 'ignore')
return strTest

补充：
默认的参数就是strict，代表遇到非法字符时抛出异常；
如果设置为ignore，则会忽略非法字符；
如果设置为replace，则会用?号取代非法字符；
如果设置为xmlcharrefreplace，则使用XML的字符引用。

posted on 2015-07-01 09:31 小鸡喝饼阅读(222) 评论(0) 编辑收藏举报

刷新页面返回顶部