Tesseract-OCR识别
这玩意一般般、OCR可以试试EasyOcr、飞桨OCR、
"""
Tesseract 就是谷歌开源的一个OCR光学文字识别引擎
默认已经有训练好的库了,但它还可以加载别人训练好的库。
使用:
1、根据平台安装引擎
这里有一个【曼海姆大学图书馆】的封装版本
https://github.com/UB-Mannheim/tesseract/wiki
2、python中使用:
安装pytesseract、PIL(用于读取图片)
"""
import os
import sys
if __name__ == '__main__':
from PIL import Image
from pytesseract import pytesseract
# 将安装目录加到环境变量中,自己在windwos中设置的是不起作用的
os.environ["PATH"] = os.environ["PATH"] + r';C:\Program Files\Tesseract-OCR'
# 打开一张图片
image = Image.open(r"C:\Users\Administrator\Desktop\爬虫\Snipaste_2023-06-17_12-03-15.png")
# 指定输出的语言类型
# 使用tesseract.exe --list-langs 可以查看
# 语言模型数据在C:\Program Files\Tesseract-OCR\tessdata
result = pytesseract.image_to_string(image, lang="chi_sim")
print(result)
本文来自博客园,作者:运维爱背锅,转载请注明原文链接:https://www.cnblogs.com/juelian/p/17559587.html
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步