NLP QA数据集

NLP QA数据集

数据文档

背景描述

CNN/Daily Mail(简称CNN/DM)作为单文本摘要语料库,每篇摘要包含多个摘要句。数据集最初是从美国有限新闻网(CNN)和每日邮报网(Daily Mail)收集的约100万条新闻数据作为机器阅读理解语料库。后来进行简单改动,形成用于单文本生成式摘要的语料库。将每篇新闻的要点按原文中出现的顺序组成多句的摘要,每个要点看成是一个句子。

数据说明

用于单文本摘要的CNN/DM数据集规模:

训练集大小: 286817
验证集大小: 13368
测试集大小: 11487
训练集中平均摘要句子数: 3.72

数据来源

https://cs.nyu.edu/~kcho/DMQA/

引用格式

@misc{dataset_916137,
title = { CNN/Daily Mail新闻数据集 },
author = { KOTO },
howpublished = { \url{https://www.heywhale.com/mw/dataset/5e672b53f278cf002d532d12} },
year = { 2020 },
}

https://www.heywhale.com/mw/dataset/5e672b53f278cf002d532d12
https://zhuanlan.zhihu.com/p/137689404
https://github.com/hellotransformers/Natural_Language_Processing_with_Transformers/blob/main/chapter6.md
https://blog.csdn.net/qq_25222361/article/details/78694617
https://zhuanlan.zhihu.com/p/504279252

posted @   michaelchengjl  阅读(95)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
点击右上角即可分享
微信分享提示