python 过滤xml非法字符 :not well-formed (invalid token)错误处理
python处理xml报错:
xml.etree.ElementTree.ParseError: not well-formed (invalid token):
查询得知xml有不支持的字符范围
出现这个错误的原因是,xml文件中含有非法字符,是一个bad xml,即不符合xml规范的.
由于xml文件是第三方提供,只能自己这里处理掉xml中的非法字符
python过滤方法:
text = open ( "badxml.xml" ).read() text = re.sub(u "[\x00-\x08\x0b-\x0c\x0e-\x1f]+" ,u"",text) root = ElementTree.fromstring(text) |
替换掉非法字符即可
适用于不会使用到非法字符的情况
【推荐】还在用 ECharts 开发大屏?试试这款永久免费的开源 BI 工具!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步