博客园  :: 首页  :: 新随笔  :: 订阅 订阅  :: 管理

C# 使用Tesseract实现OCR

Posted on 2024-06-18 14:35  PHP-张工  阅读(9)  评论(0编辑  收藏  举报

使用Nuget安装Tesseract  
地址:https://www.nuget.org/packages/Tesseract
访问:https://github.com/tesseract-ocr/tessdata/blob/main/eng.traineddata
下载语言包,将语言包放在程序生成目录下的 \tessdata\eng.traineddata

OCR识别代码如下:

public static string ImageToText(string imgPath)
{
    using (var engine = new TesseractEngine("tessdata", "eng", EngineMode.Default))
    {
        // 识别白名单设置
        // engine.SetVariable("tessedit_char_whitelist", "0123456789.-/");
        using (var img = Pix.LoadFromFile(imgPath))
        {
            using (var page = engine.Process(img))
            {
                return page.GetText();
            }
        }
    }
}