java tess4j配置
ITesseract instance = new Tesseract();
try {
// 设置字体库路径
instance.setDatapath("/path/to/tessdata/");
// 添加特定的字体
instance.setLanguage("eng", "/path/to/font_folder");
// 设置DPI --> 正确的DPI设置能保证图像的质量和精度
instance.setTessVariable("user_defined_dpi", "300");
// 设置白名单
instance.setTessVariable("tessedit_char_whitelist", "ABCDEFGHIJKLMNOPQRSTUVWXYZ");
// 设置黑名单
instance.setTessVariable("tessedit_char_blacklist", "0123456789");
// 设置页面分割模式
instance.setTessVariable("tessedit_pageseg_mode", "6"); // 设置为1为单字模式,设置为6为布局分析
// 块级别的页面分割
// instance.setPageSegMode(PageSegMode.PSM_BLOCK);
// 段落级别的页面分割
// instance.setPageSegMode(PageSegMode.PSM_PARA);
// 文本行级别的页面分割
// instance.setPageSegMode(PageSegMode.PSM_AUTO_OSD);
// 执行OCR
String result = instance.doOCR(new File("/path/to/image.png"));
System.out.println(result);
} catch (TesseractException e) {
e.printStackTrace();
}