python pytesseract使用

正确使用方法

1.tesseract-orc安装
tesseract-ocr-setup-3.05.00dev.exe下载
2.pytesseract

pip install pytesseract
3.设置 tesseract-orc路径

  • C:\Program Files (x86)\Tesseract-OCR添加到系统路径(路径因安装过程而异)
  • 修改pytesseract.py文件
    tesseract_cmd = "C:/Program Files (x86)/Tesseract-OCR/tesseract.exe"
  • 设置环境变量 TESSDATA_PREFIX
    C:\Program Files (x86)\Tesseract-OCR\tessdata
#coding = utf -8
from PIL import Image
import pytesseract
 
im = Image.open("2.png")
text = pytesseract.image_to_string((im), lang='chi_sim')
print (text)
try:
    import Image
except ImportError:
    from PIL import Image
import pytesseract
#如果PATH中没有tesseract可执行文件,请包含以下内容:
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
#示例tesseract_cmd = r'C:\ Program Files(x86)\ Tesseract-OCR \ tesseract'
#简单的图像串
print(pytesseract.image_to_string(Image.open('test.png')))
#法语文本图像串
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra'))
#获取包围盒估计
print(pytesseract.image_to_boxes(Image.open('test.png')))
#获取详细的数据,包括盒,置信线和页码
print(pytesseract.image_to_data(Image.open('test.png')))
#获取有关方向和脚本检测信息
print(pytesseract.image_to_osd(Image.open('test.png'))
#为了绕过内部图像的转换,只需用相对或绝对图像路径
#注:如果你不使用支持的图像,正方体将返回错误
print(pytesseract.image_to_string('test.png'))

参考
参考

posted @ 2019-07-04 22:00  tomyyyyy  阅读(4199)  评论(0编辑  收藏  举报