python 判断语种类别

使用langdetect 或者langid

安装

pip install langid
or 
pip install langdetect

适用于linux系统

测试

#! /usr/bin/env python
# -*- coding: utf-8 -*-#
import langid
from langdetect import detect
from langdetect import detect_langs
from langdetect import DetectorFactory

DetectorFactory.seed = 0


def check(line):
    lang_set = set()
    for c in line.strip().split(" "):
        lang_set.add(detect(c.title()))
    return lang_set


def main(content_file):
    with open(content_file, mode="r") as f:
        for line in f:
            print(f"{line.strip()}:{detect_langs(line.strip())}")
            print(f"{line.strip()}:{langid.classify(line.strip())[0]}")
            print(check(line))


if __name__ == '__main__':
    # content_path = input("请输入文本路径:")
    content_path = r"input_folder/demo.txt"
    main(content_path)
posted @   不能说的秘密  阅读(287)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示