跨平台Windows和Linux（银河麒麟）操作系统OCR识别应用

1 运行效果

代码下载链接: https://pan.baidu.com/s/1NUfLTjk6kzXJKsaH7yo4qA?pwd=rk5c 提取码: rk5c。

在银河麒麟桌面操作系统V10(SP1)上运行OCR识别效果如下图：

2 在Linux上安装Tesseract OCR引擎

2.1 下载tesseract-ocr和leptonica

https://codeload.github.com/tesseract-ocr/tesseract/tar.gz/5.2.0
http://www.leptonica.org/source/leptonica-1.82.0.tar.gz

以上是在浏览器上下载，用linux的wget方式下载

wget https://github.com/tesseract-ocr/tesseract/archive/5.2.0.tar.gz
wget http://www.leptonica.org/source/leptonica-1.82.0.tar.gz

注意版本号：使用的是tesseract.5.2.0 和 leptonica-1.82.0

下载好之后，上传到linux服务器上的新目录中，比如：/home/wxzz

2.2 安装

依次执行以下命令

cd /home/wxzz
tar -xvf leptonica-1.82.0.tar.gz
cd leptonica-1.82.0
./configure
make
make install
apt install  automake
apt install  libtool
tar -xvf tesseract-5.2.0.tar.gz
cd tesseract-5.2.0
./autogen.sh
./configure
make
make install
sudo ldconfig

2.3 配置环境变量

/*打开文件*/
vim /etc/profile
/*在文件末尾添加*/
export LD_LIBRARY_PATH=/usr/local/lib
export LIBLEPT_HEADERSDIR=/usr/local/include
export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
export TESSDATA_PREFIX=/usr/local/share/tessdata
/*立即生效*/
source /etc/profile

2.4 下载语言包

//中文简体
https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/chi_sim.traineddata
//英文
https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/eng.traineddata

目前最新版本是 4.00，将下载好的语言包上传到linux服务器指定目录中：/usr/local/share/tessdata

2.5 测试是否安装成功

tesseract --version

如果安装成功，如下图：

2.6 测试读取图片内容

tesseract ocr.png output -l chi_sim

可能会报错提示，看一下实际有没有文件输出。参数说明：

ocr.png : 是要识别的图片文件

output : 是识别后的文本(output.txt)

chi_sim : 用到的语言包

3 部署项目

3.1 添加引用

新建一个NET6的项目工程，在nuget 里面查找tesseract，添加到项目中，版本是5.2.0，如下图：

3.2 读取图片文字

C#实现的代码如:

using Tesseract;
namespace LinuxOCR
{
    internal class Program
    {
        static string testImagePath = "ocr.png";
        static void Main(string[] args)
        {
            string textResult = String.Empty;
            using (var engine = new TesseractEngine("tessdata", "eng", EngineMode.Default))
            {
                using (var img = Pix.LoadFromFile(testImagePath))
                {
                    using (var page = engine.Process(img))
                    {
                        textResult= page.GetText();
                    }
                }
            }
            Console.WriteLine("识别结果:"+textResult);
            Console.ReadLine();
        }
    }
}

项目工程目录结构，如下图：

注意：在bin\Debug\net6.0目录下有一个tessdata目录，其中的文件，来源于第2.4步骤的下载。

3.3 补齐linux上需要的文件

项目部署到linux上后，还需要在x64目录中增加两个文件：libleptonica-1.82.0.so和libtesseract50.so，把这两个文件需要从linux服务器上的文件路径复制到自己的工程中：/usr/lib/x86_64-linux-gnu/libleptonica.so 和 /usr/local/lib/libtesseract.so，并且把文件名分别改为：libleptonica-1.82.0.so和libtesseract50.so。发布后的x64目录中，然后改名如下图：

4.运行

工程发布到publish目录后，在麒麟操作上运行dotnet LinuxOCR.dll，效果如下图：

物联网&大数据技术 QQ群：54256083

物联网&大数据项目 QQ群：727664080

QQ：504547114

微信：wxzz0151

博客：https://www.cnblogs.com/lsjwq

微信公众号：iNeuOS

posted @ 2025-03-03 12:00 iNeuOS工业互联网系统阅读(465) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· [免费下载应用]iNeuKernel.Ocr 图像数据识别与采集的产品化应用

· iNeuOS工业互联网操作系统，面向4个领域颁发第一批技术认证资质

· OCR：使用开源框架Tesseract做文字识别（安装）

· CSharp在Linux上使用Tesseract-OCR

· 基于Tesseract-OCR引擎的图片识别及使用-简易版

公告

唯笑志在，真实姓名：王强
微信：wxzz0151
物联网&集成技术QQ群：54256083
10多年的煤炭、电力、环保、钢铁等工业领域开发和管理经验；自主开发iNeuOS工业互联网操作系统，根据工业项目经验结合工业互联网理论和技术体系实现的一套开箱即用的工业应用系统，iNeuOS融合了工业自动化控制系统、物联网系统、工业互联网系统的主要特点，从数据接入、数据接口、数据处理、数据建模、数据存储、数据分析和数据应用等形成体系化、流程化的应用。满足用户的即接、即用、即分析、即显示的工具应用需求，并且支持开放式的二次开发；参与工信部《面向特定行业信息物理系统测试验证床建设》、《跨行业跨领域工业互联网平台》、《垂直领域工业互联网平台》、《基于工业互联网的机理模型开发与推广》、《基于工业互联网平台的工业设备上云解决方案供应商》投标及平台建设；阿里云MVP、阿里物联网平台推广合伙人。
出版书籍：《物联网软件架构设计与实现》

iNeuOS工业互联网操作系统

物联网&大数据技术QQ群：54256083

跨平台Windows和Linux（银河麒麟）操作系统OCR识别应用

公告

搜索

常用链接

最新随笔

我的标签

随笔分类

随笔档案

相册

网站链接

阅读排行榜

评论排行榜

推荐排行榜

最新评论