常见字符编码特征
1.以%开头的一般是做了URL编码的,用urllib.parse.unquote()解码。
2.以&#开头的一般是做了Unicode转义处理,html.unescape()做反转义。
3.以&#x开头的是做了Unicode 16进制转义,也用html.unescape()做反转义。
4.以\u开头的是一般是UTF-8编码。
5.字符串后面以=结尾的,通常是做了base64编码处理的