图片文字-敏感词过滤
文章中包含的图片要识别文字,过滤掉图片文字的敏感词
图片文字识别:
OCR (Optical Character Recognition,光学字符识别):是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程
Tesseract-OCR 特点:
1、Tesseract支持UTF-8编码格式,并且可以“开箱即用”地识别100多种语言。
2、Tesseract支持多种输出格式:纯文本,hOCR(HTML),PDF等
3、官方建议,为了获得更好的OCR结果,最好提供给高质量的图像。
4、Tesseract进行识别其他语言的训练 具体的训练方式,请参考官方提供的文档:https://tesseract-ocr.github.io/tessdoc/
Tesseract案例:
1、导入依赖
<dependency> <groupId>net.sourceforge.tess4j</groupId> <artifactId>tess4j</artifactId> <version>4.1.1</version> </dependency>
2、导入中文字体库, 把资料中的tessdata文件夹拷贝到自己的工作空间下
3、编写测试类进行测试
package com.heima.tess4j; import net.sourceforge.tess4j.Tesseract; import net.sourceforge.tess4j.TesseractException; import java.io.File; public class Application { /** * 识别图片中的文字 * @param args */ public static void main(String[] args) throws TesseractException { //创建实例 Tesseract tesseract = new Tesseract(); //设置字体库路径 tesseract.setDatapath("D:\\workspace\\tessdata"); //设置语言 --> 简体中文 tesseract.setLanguage("chi_sim"); File file = new File("E:\\11.jpg"); //识别图片 String result = tesseract.doOCR(file); System.out.println("识别的结果为:" + result.replaceAll("\\r/\\n", "-")); } }
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库