发布中文文档类资源仓库-ChineseDocumentPDF

1|0引言

今天中午，排队打饭间隙，刷到新闻，说是：360AILAB-NLP团队开源了中文论文、研报文档场景的轻量化版式分析模型360LayoutAnalysis。

面向中文论文及研报两个场景的轻量化版式分析模型已经开源：

Github地址：https://github.com/360AILAB-NLP/360LayoutAnalysis，
模型权重huggingface地址：https://huggingface.co/qihoo360/360LayoutAnalysis

巧的是，这一直是我前一段时间以来想做并且在做的事情，只是刚开了一个小头。

2|0版式分析

因为我发现版式分析是一个很关键的模块，尤其是现阶段RAG广泛应用的前提下，版式分析显得尤为重要。这一点可以用我在RapidStructure中画的框图来说明：

通过版式分析模型，我们就可以提前知道给定文档中，哪里是表格、哪些是图表，哪些是公式，哪些是文本段落等。因此，版式分析是后续一切工作的基础。

而当前现状是中文文档场景数据集较少，不像英文文档有arXiv网站，国内中文论文并没有一个类似arXiv的聚集地，中文论文都是散落在各个期刊自建网站上。或者是被收录到知网、维普、万方等付费网站上。

因此，我就考虑能否收集一些在线可获取的中文文档，并对它们做标注，算是促进中文文档智能的发展吧！这不360先做了，我就把前期收集的PDF链接做了整理，就有了Chinese Document PDF仓库。

3|0Chinese Document PDF

该仓库主要放置自己爬取国内一些中文论文网站、证券报告的PDF。

因涉及到版权问题，我这里只放置PDF链接和对应的下载脚本，小伙伴可以自行下载。

该资源可以与360发布的版面分析模型相结合使用，具体来说，用他们的模型给新的PDF图像打标注 → 人工校验 → 再次训练模型，迭代更多数据，模型就会越来越准。

__EOF__

本文作者：Danno
本文链接：https://www.cnblogs.com/shiwanghualuo/p/18246885.html
关于博主：评论和私信会在第一时间回复。或者直接私信我。
版权声明：本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！
声援博主：如果您觉得文章对您有帮助，可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力！