Table Recognition Metric: 表格识别算法评测工具包及相关评测基准数据集
1|0Table Recognition Metric
- 该库用于计算TEDS指标,用来评测表格识别算法效果。可与魔搭-表格识别测试集配套使用。
- TEDS计算代码参考:PaddleOCR 和 DAVAR-Lab-OCR
1|1使用说明:
- Install package by pypi.
- Run by command line.
- Usage:
- Example:
- Usage:
- Run by script.
数据集上评测
- 这里以
rapid-table
在表格数据集liekkas/table_recognition上的评测代码,大家可以以此类推。 - 安装必要的包
- 运行测试
1|2Tree-EditDistance-based Similarity (TEDS)
-
TEDS是IBM在论文《Image-based table recognition: data, model, and evaluation》中提出的。
-
之前提出的评测算法,主要是将一个表格的
ground truth
和recognition result
各自展平为非空cell两两之间的邻接关系列表。然后通过比较这两个列表,来计算precision, recall和F1-score。该metric主要存在两个明显问题:- 由于它只检查非空单元格之间的直接邻接关系,因此它无法检测由空单元格和超出直接邻居的单元格未对齐引起的错误;
- 由于它通过精准匹配来检查关系,因此它没有衡量fine-grained单元格内容识别性能的机制。
-
针对以上问题,TEDS通过以下方法予以解决:
- 通过在全局树结构级别检查识别结果,使其能够识别它识别所有类型的结构错误,来解决上述问题1;
- 当tree-edit的操作是节点替换时,计算对应的字符串编辑距离,来解决上述问题2。
-
计算公式:
其中,指的是tree-edit distance, 指的是在中节点的数量。一个表格还原算法在一系列测试集上识别效果可以定义为:测试集中所有样例逐个计算其ground truth和predict result之间的TEDS,最终对所有样例的TEDS求均值得到最终得分。
__EOF__

本文作者:Danno
本文链接:https://www.cnblogs.com/shiwanghualuo/p/17552361.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力!
本文链接:https://www.cnblogs.com/shiwanghualuo/p/17552361.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力!
-----------------------------------------
你驻足于春色中,于那独一无二的春色之中。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· AI 智能体引爆开源社区「GitHub 热点速览」