如何查看字符编码?

导入chardet模块,可以用命令安装

pip install chardet

 

希望通过一个案例能让你快速入门

import chardet

UTF8_TEXT="你好,世界".encode('utf-8')
SJIS_TEXT="你好,世界".encode('GB2312')
GBK_TEXT="你好,世界".encode('GBK')
'''
输出结果:
{'encoding': 'utf-8', 'confidence': 0.9690625, 'language': ''}
{'encoding': None, 'confidence': 0.0, 'language': None}
{'encoding': None, 'confidence': 0.0, 'language': None}
这是一个比较糟糕的问题,第一个有结果,另外两个没有结果,百度也不好百度,自己尝试了一下,发现原来内容不能不能输入一样的,改了皆可以输出结果了。

'''
'''
UTF8_TEXT="你好,世界".encode('utf-8')
SJIS_TEXT="哈哈哈".encode('GB2312')
GBK_TEXT="中国加油!".encode('GBK')
输出结果:
{'encoding': 'utf-8', 'confidence': 0.9690625, 'language': ''}
{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}
{'encoding': 'KOI8-R', 'confidence': 0.40958385256619645, 'language': 'Russian'}

'''


def main():
    print(chardet.detect(UTF8_TEXT))
    print(chardet.detect(SJIS_TEXT))
    print(chardet.detect(GBK_TEXT))

if __name__ == '__main__':
    main()

'''
detect函数返回值是一个字典,得到confidence (可信度)与encoding (字符
编码)这一键值对。其中的可信度数値在0-1之向,越是接近1表明可以信頼的程
度越高。
'''

 

posted @ 2019-01-05 19:50  青春叛逆者  阅读(1974)  评论(0编辑  收藏  举报