文档信息抽取相关数据集下载
FUNSD
A dataset for Text Detection, Optical Character Recognition, Spatial Layout Analysis and Form Understanding
funsd 是个人提供的一个数据集,用于多个领域,可以用于信息抽取中的实体抽取和关系抽取。
拥有199张全标注的文档样本。
SROIE
kaggle链接里有很多工作的微调代码。
CORD
paper with code链接
github主页链接
huggingface下载链接
clova公司提供的数据集,有1000个文档样本,其中800训练,100验证,100测试。