摘要:第四章 表格检测识别技术面临的挑战和发展趋势 现在表格区域检测的准确率已经很高了。但检测和识别是相辅相成的,单独的检测不够完善。如何利用检测和结构识别的结果互相提高效果,是未来的研究方向和重点。 由于表格应用场景较为广泛,表格形式多种多样,文档图像质量参差不齐,表格结构识别仍存在着较大的挑战。具体表
阅读全文
摘要:近年来,我国对数据的重视程度不断加强。2022年1月,国务院印发的《“十四五”数字经济发展规划》进一步提出,到2025年要初步建立数据要素市场体系,并对充分发挥数据要素价值作出重要部署。然而,现阶段有大量的数据信息以图片形式存储,数据流通仍存在隐形的壁垒。 作为将图像信息转换为文字信息的关键技术,O
阅读全文
摘要:现阶段,越来越多的金融机构将业务转到线上,推出了“零接触”金融服务以提升业务流程效率。在此过程中,智能文字识别技术对提升复杂版式文档录入效率起到了重要作用。 近期,在元脑生态框架下,合合信息将智能文字识别技术与浪潮信息AI服务器、浪潮信息AIStation智能业务生产创新平台优势相融合,联合推出一站
阅读全文
摘要:

数字经济快速发展的背后,全球数据总量呈现出爆发式增长趋势。智能文档处理(IDP)技术能够高效地从多格式文档中捕捉、提取和处理数据,帮助机构和企业大幅提升文档处理效率,节约时间和人力成本。近期,合合信息智能文字识别产品通过中国信息通信研究院(以下简称“中国信通院”)“可信AI—智能文档处理系统”评估工作,并获得“5级”评定。据悉,“5级”为该模块最高评定等级。
阅读全文
摘要:

基于整个表格内容进行的表格分类、单元格分类、以及表格信息抽取等任务,这是当前表格识别研究的热门领域之一。
阅读全文
摘要:

近期,2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE) 圆满落幕。会议由中国人工智能学会、中国图象图形学学会主办,江南大学和无锡国家高新技术产业开发区管理委员会承办。超五千名专家学者、知名高校师生以及来自OPPO、华为、百度、合合信息等科技企业的研发人员齐聚大会,共探计算机视觉、图像处理、模式识别与机器学习前沿技术的发展与应用。
阅读全文
摘要:

《文档图像篡改检测标准》将为文档图像内容安全提供可靠保障,助力新时代AI安全体系建设。作为牵头方,中国信通院表示,《文档图像篡改检测标准》将基于产业现状,围绕“细粒度”视觉差异伪造图像鉴别、生成式图像判别、文档图像完整性保护等行业焦点议题,凝聚行业共识,以期为行业提供有效指引。
阅读全文
摘要:

表格识别的研究主要涉及两个方面,一方面是对单元格内的文本进行识别,这一步通常是在确定单元格区域后,利用较为稳定的光学字符识别方法(OCR)来实现,这一方面不是表格识别研究的重点,不在此展开;另一方面是基于整个表格内容进行的表格分类、单元格分类、以及表格信息抽取等任务,这是当前表格识别研究的热门领域之一。下文会对表格信息抽取进行展开讲述。
阅读全文
摘要:

论文提出了一种新的表格结构识别方法,它包含两个有效的组件:一个基于SepRETR的分割线预测分割模块和一个基于关系网络的用于跨行单元格恢复的单元格合并模块。与以往基于图像分割的分割线检测方法相比,基于SepRETR的分割线回归方法可以在不依赖启发式mask-to-line模块的情况下实现更高的TSR精度。实验结果表明,所提出的先验增强的二分匹配策略可以有效地提高两阶段DETR的收敛速度。因此,论文的方法在三个公共基准SciTSR、PubTabNet和WTW测试上取得了最先进的性能。在更具挑战性的真实内部数据集中,进一步验证了论文的方法对具有复杂结构、无边界单元格、大空白空间、空白或跨行单元格以及扭曲或弯曲形状的表格的鲁棒性。
阅读全文