冲刺报告

今天总结一下前几天的:

刚开始做了拍照技术,用来拍图片。

然后用tesseract ORC技术来进行文字识别。

把代码储存成文件,放到openVC库中。

今天的问题:tesseract导包的问题,因为这里面用了太多的识别技术,导致有些包导不全,自己还要上网去查问题,有一些包不存在得添加一些配置,导致这两天这个很难弄。

具体的步骤

  1. 使用Java图像处理库(如OpenCV)读取输入图像,提取出其中的表格区域;
  2. 对提取出的表格区域进行图像处理和分割,将表格分割成单独的单元格;
  3. 对每个单元格进行OCR(光学字符识别)处理,将识别出的文字内容保存到一个二维数组中,以便后续转换成HTML表格;
  4. 使用Java生成HTML代码,根据OCR识别出的文字内容和表格结构生成HTML表格;
  5. 将生成的HTML代码传到Web端,以便在浏览器中显示出电子表格。

 

posted @ 2023-04-22 23:27  会秃头的小白  阅读(12)  评论(0编辑  收藏  举报