表格识别数据集

  • ICDAR 表格识别竞赛
  • TableBank
  • DocBank
  • TABLE2LATEX-450K
  • DECO

https://github.com/doc-analysis/TableBank

微软发布
word和latex两种格式。

https://github.com/doc-analysis/DocBank

https://github.com/bloomberg/TABLE2LATEX

该数据集包含约46.6万个表格-Latex代码对样例,从文档层面分为了训练集(约44.7万)、验证集(约0.9万)和测试集(约0.9万)。这个数据集实际上将表格结构识别任务作为了一个图像到文本(Image2Text)的转化任务。

DECO

《DECO: A Dataset of Annotated Spreadsheets for Layout and Table Recognition》,作者通过抽取EnronCorpus,得到了一个包含1165份文件的数据集。该数据将表格的非空单元格标注为表格头、数据和注释等,同时注明了表格边界。对于不含表格的文件,使用了例如:模板、表单、报表等类别进行标注。
https://wwwdb.inf.tu-dresden.de/researchprojects/deexcelarator/

ICDAR2019

ICDAR2019表格检测与识别比赛(ICDAR2019 Competition on Table Detection and Recognition, cTDaR),是一个面向表格检测与识别任务的比赛,比赛官方网站为http://sac.founderit.com/。

参考

posted on 2020-12-31 10:14  宋岳庭  阅读(2004)  评论(0编辑  收藏  举报