java读取图片中文字
字库下载参考:https://github.com/tesseract-ocr/tessdata/tree/3.04.00 解压后在项目根目录创建tessdata目录,将内容复制进去。 如图:
测试:
public static void main(String[] args) throws TesseractException { ITesseract instance = new Tesseract(); //如果未将tessdata放在根目录下需要指定绝对路径 //instance.setDatapath("the absolute path of tessdata"); //如果需要识别英文之外的语种,需要指定识别语种,并且需要将对应的语言包放进项目中 instance.setLanguage("chi_sim"); // 指定识别图片 File imgDir = new File("D:\\t.jpg"); long startTime = System.currentTimeMillis(); String ocrResult = instance.doOCR(imgDir); // 输出识别结果 System.out.println("OCR Result: \n" + ocrResult + "\n 耗时:" + (System.currentTimeMillis() - startTime) + "ms"); }
依赖:
· <dependency> <groupId>net.sourceforge.tess4j</groupId> <artifactId>tess4j</artifactId> <version>3.2.1</version> </dependency