[TC] 文本分类任务中广泛使用的数据集

一. 前言

包含情感分析、新闻分类、主题分类、问答和自然语言推理。下边是直接复制的翻译结果(没仔细看),如果翻译有问题,请参考论文《Deep Learning Based Text Classification: A Comprehensive Review》第4章节!

二. 数据集

1. 情感分析

  • 1)Yelp:Yelp[185]数据集包含两个情感分类任务的数据。一种是检测细粒度情绪标签,称为Yelp-5。另一种是预测消极和积极情绪,称为Yelp-Review Polarity或Yelp-2。Yelp-5每个类有65万个训练样本和5万个测试样本,Yelp-2包括56万个训练样品和38 000个消极和积极类的测试样本。
  • 2)IMDb:IMDB数据集[186]是为电影评论的二元情感分类任务而开发的。IMDB由相同数量的正面和负面评论组成。它在训练集和测试集之间平均分配,每个测试集有25000条评论。
  • 3)Movie Review:电影评论(MR)数据集[187]是一组电影评论,用于检测与特定评论相关的情绪,并确定其是消极的还是积极的。它包括10662个句子,正负样本数为偶数。随机分割的10倍交叉验证通常用于该数据集的测试。
  • 4)SST:斯坦福情感树库(SST)数据集[43]是MR的扩展版本。有两个版本可用,一个具有细粒度标签(五类),另一个为二进制标签,分别称为SST-1和SST2。SST-1由11855个电影评论组成,分为8544个训练样本、1101个开发样本和2210个测试样本。SST-2分为三个集,大小分别为6920、872和1821,分别作为训练集、开发集和测试集。
  • 5)MPQA:多角度问答(MPQA)数据集[188]是一个具有两个类别标签的意见语料库。MPQA由10606个句子组成,这些句子摘自与各种新闻来源相关的新闻文章。这是一个不平衡的数据集,有3311个阳性文档和7293个阴性文档。
  • 6)Amazon:这是一个流行的产品评论语料库,收集自亚马逊网站[189]。它包含二进制分类和多类(5类)分类的标签。亚马逊二元分类数据集分别包含3600000和400000条训练和测试评论。亚马逊5类分类数据集(Amazon-5)分别由3000000和650000条训练和测试评论组成。

2. 新闻分类

  • 1)AG News:AG新闻数据集[50]是学术新闻搜索引擎ComeToMyHead从2000多个新闻来源收集的新闻文章的集合。该数据集包括120000个训练样本和7600个测试样本。每个样本都是一个带有四类标签的短文本。
  • 2)20 Newsgroups:20个新闻组数据集[190]是发布在20个不同主题上的新闻组文档的集合。该数据集的各种版本用于文本分类、文本聚类等。其中一个最流行的版本包含18821个文档,这些文档在所有主题中平均分类。
  • 3)Sogou News:搜狗新闻数据集[154]是搜狗CA和搜狗CS新闻语料库的混合物。新闻的分类标签由其在URL中的域名决定。例如,带有URL的新闻http://sports.sohu.com被归类为体育课。
  • 4)Reuters news:Reuters-21578数据集[191]是文本分类中使用最广泛的数据集之一,于1987年从路透社金融通讯社(Reuters financial newswire service)收集。ApteMod是Reuters-21578的多类版本,包含10788个文档。它有90个班级,7769份培训文件和3019份测试文件。来自路透社数据集子集的其他数据集包括R8、R52、RCV1和RCV1-v2。其他用于新闻分类的数据集包括:Bing news[192]、BBC[193]、Google news[194]。

3. 主题分类

  • 1)DBpedia:DBpedia数据集[195]是一个大规模的多语言知识库,由维基百科中最常用的信息框创建。DBpedia每月发布一次,在每个版本中添加或删除一些类和属性。最流行的DBpedia版本包含560000个训练样本和70000个测试样本,每个样本都有14个类标签。
  • 2)Ohsumed:Ohsumed集合[196]是MEDLINE数据库的子集。Ohsumed包含7400个文档。每个文档都是一个医学摘要,由23种心血管疾病类别中的一个或多个类别进行标记。
  • 3)EUR-Lex:EUR-Lex数据集[197]包括不同类型的文档,这些文档根据几个正交分类方案进行索引,以允许多个搜索设施。该数据集最流行的版本基于欧盟法律的不同方面,有19314份文件和3956个类别。
  • 4)WOS:Web of Science(WOS)数据集[136]是可从Web of Science获得的已发表论文的数据和元数据的集合,Web of Science是世界上最值得信赖的独立于出版商的全球引文数据库。WOS发布了三个版本:WOS-46985、WOS-11967和WOS-5736。WOS-46985是完整的数据集。WOS-11967和WOS-5736是WOS-46985的两个子集。
  • 5)PubMed:PubMed[198]是国家医学图书馆为医学和生物科学论文开发的搜索引擎,其中包含一个文档集。每个文档都用MeSH的类进行了标记,MeSet是PubMed中使用的标签集。摘要中的每个句子都使用以下类别之一标记其在摘要中的角色:背景、目标、方法、结果或结论。主题分类的其他数据集包括PubMed 200k RCT[199]、Irony(由社交新闻网站reddit的注释评论组成、Twitter推特主题分类数据集、arXiv集合[200]),等等。

 4. 问答系统

  • 1)SQuAD:斯坦福问答数据集(SQuAD)[24]是来自维基百科文章的问答对的集合。在小组中,问题的正确答案可以是给定文本中的任何标记序列。由于问答是由人类通过众包产生的,因此它比其他一些问答数据集更加多样化。SQuAD1.1包含536篇文章中的107785个问答对。SQuAD2.0是最新版本,它将SQuAD1.1中的100000个问题与众包工人以类似于可回答问题[201]的形式敌对编写的50000多个不可回答的问题结合在一起。
  • 2)MS MARCO:该数据集由Microsoft发布[202]。与所有问题都由编辑产生的SQuAD不同;在《MS MARCO》中,所有问题都是使用必应搜索引擎从用户查询和真实网络文档的段落中抽取的。MS MARCO的一些回答具有生成性。因此,该数据集可用于开发生成式QA系统。
  • 3)TREC-QA:TREC-QA[203]是QA研究中最受欢迎和研究的数据集之一。该数据集有两个版本,即TREC-6和TREC-50。TREC-6由6类问题组成,而TREC-50分为50类。对于这两个版本,训练和测试数据集分别包含5452和500个问题。
  • 4)WikiQA:WikiQA数据集[204]由一组问答对组成,为开放域QA研究收集和注释。该数据集还包括没有正确答案的问题,允许研究人员评估答案触发模型。
  • 5)Quora:Quora数据集[205]用于释义识别(检测重复问题)。为此,作者提出了Quora数据的子集,该子集由40多万个问题对组成。每个问题对分配一个二进制值,指示两个问题是否相同。QA的其他数据集包括具有Situations With Adversarial Generations(SWAG)[206]、WikiQA[204]、SelQA[207]。

5. 自然语言推理

  • 1)SNLI:斯坦福自然语言推理(SNLI)数据集[208]广泛用于NLI。该数据集由550152、10000和10000个句子对组成,这三部分分别用于训练、开发和测试。每一对都用三个标签中的一个进行标注:中性、蕴涵、矛盾。
  • 2)Multi-NLI:多体裁自然语言推理(MNLI)数据集[209]是由433k个用文本蕴涵标签进行标注的句子对组成的集合。它是SNLI的扩展,涵盖了更广泛的口语和书面语篇体裁,并支持独特的跨体裁泛化评估。
  • 3)SICK:The Sentences Involving Compositional Knowledge(SICK)数据集的句子[25]由约10000个英语句子对组成,这些句子对用三个标签进行标注:蕴涵、矛盾和中性。
  • 4)MSRP:The Microsoft Research Paraphrase(MSRP)数据集[210]通常用于文本相似性任务。MSRP由4076个训练样本和1725个测试样本组成。每个样本是一个句子对,用一个二进制标签标注,指示这两个句子是否为释义。其他NLI数据集包括Semantic Textual Similarity(STS)[211]、RTE[212]、SciTail[213],等等。
posted @ 2022-08-01 17:43  小贼的自由  阅读(1664)  评论(0编辑  收藏  举报