C#利用Tesseract进行OCR文字识别

安装Nuget包

Install-Package Tesseract

下载训练好的数据

下载地址:https://github.com/tesseract-ocr/tessdata/
简体中文下载:chi_sim.traineddata

创建tessdata文件夹

把前面下载好的chi_sim.traineddata文件放到tessdata文件夹里面

代码

private void OnSelectFile()
{
    var dialog = new OpenFileDialog();
    dialog.Filter = "所有文件(*.*)|*.*";
    if (dialog.ShowDialog() == true)
    {
        var fileName = dialog.FileName;

        var language = "chi_sim";
        var engine = new TesseractEngine(FileSystemHelper.GetFullPath("tessdata"), language, EngineMode.Default);
        using (var img = Pix.LoadFromFile(fileName))
        {
            using (var page = engine.Process(img))
            {
                RecognizedText = page.GetText();
                MeanConfidence = page.GetMeanConfidence();
            }
        }
    }
}

不过测试下来,识别率不是特别理想,不知道是不是训练数据的缘故。截屏下来的比较规则的文字也有很多错的。

posted @   wzwyc  阅读(501)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
点击右上角即可分享
微信分享提示