Chardet: 通用字符编码检测器

Chardet: 通用字符编码检测器
构建状态

图片

PyPI 上的最新版本

许可证

检测
ASCII、UTF-8、UTF-16(2个变体)、UTF-32(4个变体)
Big5、GB2312、EUC-TW、HZ-GB-2312、ISO-2022-CN(繁体和简体中文)
EUC-JP、SHIFT_JIS、CP932、ISO-2022-JP(日语)
EUC-KR、ISO-2022-KR、Johab(韩语)
KOI8-R、MacCyrillic、IBM855、IBM866、ISO-8859-5、windows-1251(西里尔语)
ISO-8859-5、windows-1251(保加利亚语)
ISO-8859-1、windows-1252、MacRoman(西欧语言)
ISO-8859-7、windows-1253(希腊语)
ISO-8859-8、windows-1255(视觉和逻辑希伯来语)
TIS-620(泰语)
注意

我们的 ISO-8859-2 和 windows-1250(匈牙利语)探测器已暂时禁用,直到我们重新训练模型。

需要 Python 3.7+。

posted @ 2024-05-21 12:02  suv789  阅读(19)  评论(0编辑  收藏  举报