发布中文文档类资源仓库-ChineseDocumentPDF

引言

今天中午,排队打饭间隙,刷到新闻,说是:360AILAB-NLP团队开源了中文论文、研报文档场景的轻量化版式分析模型360LayoutAnalysis。

面向中文论文及研报两个场景的轻量化版式分析模型已经开源:

巧的是,这一直是我前一段时间以来想做并且在做的事情,只是刚开了一个小头。

版式分析

因为我发现版式分析是一个很关键的模块,尤其是现阶段RAG广泛应用的前提下,版式分析显得尤为重要。这一点可以用我在RapidStructure中画的框图来说明:

image.png

通过版式分析模型,我们就可以提前知道给定文档中,哪里是表格、哪些是图表,哪些是公式,哪些是文本段落等。因此,版式分析是后续一切工作的基础。

而当前现状是中文文档场景数据集较少,不像英文文档有arXiv网站,国内中文论文并没有一个类似arXiv的聚集地,中文论文都是散落在各个期刊自建网站上。或者是被收录到知网、维普、万方等付费网站上。

因此,我就考虑能否收集一些在线可获取的中文文档,并对它们做标注,算是促进中文文档智能的发展吧!这不360先做了,我就把前期收集的PDF链接做了整理,就有了Chinese Document PDF仓库。

Chinese Document PDF

该仓库主要放置自己爬取国内一些中文论文网站、证券报告的PDF。

因涉及到版权问题,我这里只放置PDF链接和对应的下载脚本,小伙伴可以自行下载。

该资源可以与360发布的版面分析模型相结合使用,具体来说,用他们的模型给新的PDF图像打标注 → 人工校验 → 再次训练模型,迭代更多数据,模型就会越来越准。

image.png

posted @ 2024-06-13 22:19  Danno  阅读(85)  评论(0编辑  收藏  举报