开源表格识别模型对比

1|0引言

表格结构识别功能是智能文档中很重要的一个模块,又加之表格种类繁多,且复杂,又进一步让表格识别任务变得更加困难。

现阶段,开源的表格识别模型众多,但却难以有一个公平的对比,来方便我们在日常使用时选择合适的模型。因此,我们就以此为出发点,旨在解决评估开源表格模型评估问题,通过构建第三方评测集、发布计算TEDS指标工具来评测了当前开源的诸多表格识别模型。

与此同时,我们也将最优的表格识别模型做了整理,发布了两个表格识别库,详情请参见下文:

2|0评测环境

  • OS: Ubuntu
  • Python: 3.10.10
  • OpenCV: 4.10.0.84

3|0评测数据集及工具

3|1评测指标

  • TEDS
  • TEDS-only-structure

4|0评测结果

image.png

注:

  • StructEqTable 输出为 latex,只取成功转换为html并去除样式标签后进行测评
  • Surya-Tabled 使用内置ocr模块,表格模型为行列识别模型,无法识别单元格合并,导致分数较低

5|0RapidAI系表格识别库

5|1TableStructureRec

该仓库是用来对文档中表格做结构化识别的推理库,包括来自阿里读光有线和无线表格识别模型,llaipython(微信)贡献的有线表格模型,网易Qanything内置表格分类模型等。

安装:

pip install wired_table_rec lineless_table_rec table_cls

使用:

import os from lineless_table_rec import LinelessTableRecognition from lineless_table_rec.utils_table_recover import format_html, plot_rec_box_with_logic_info, plot_rec_box from table_cls import TableCls from wired_table_rec import WiredTableRecognition lineless_engine = LinelessTableRecognition() wired_engine = WiredTableRecognition() table_cls = TableCls() img_path = f'images/img14.jpg' cls,elasp = table_cls(img_path) if cls == 'wired':     table_engine = wired_engine else:     table_engine = lineless_engine    html, elasp, polygons, logic_points, ocr_res = table_engine(img_path) print(f"elasp: {elasp}")

识别效果:

image.png

5|2RapidTable

主源自PP-Structure的表格识别算法,模型转换为ONNX,推理引擎采用ONNXRuntime,部署简单,无内存泄露问题。最近刚刚集成了SLANet-plus,该模型是paddlex内置的SLANet升级版模型,表格识别准确率有大幅提升。

安装使用:

pip install rapidocr_onnxruntime pip install rapid_table rapid_table -v -img test_images/table.jpg

6|0总结

  • wired_table_rec_v2(有线表格精度最高): 通用场景有线表格(论文,杂志,期刊, 收据,单据,账单)
  • paddlex-SLANet-plus(综合精度最高): 文档场景表格(论文,杂志,期刊中的表格)

小伙伴们可以根据自己需求尝试以上列出的表格识别模型,有啥想法可以关注RapidAI公众号,后台回复“表格”入微信群交流。

本文使用 markdown.com.cn 排版


__EOF__

本文作者Danno
本文链接https://www.cnblogs.com/shiwanghualuo/p/18493792.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。您的鼓励是博主的最大动力!
posted @   Danno  阅读(506)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!
历史上的今天:
2023-10-22 rapidocr_paddle[gpu]:GPU端推理库来了
点击右上角即可分享
微信分享提示