NLP QA数据集
NLP QA数据集
数据文档
背景描述
CNN/Daily Mail(简称CNN/DM)作为单文本摘要语料库,每篇摘要包含多个摘要句。数据集最初是从美国有限新闻网(CNN)和每日邮报网(Daily Mail)收集的约100万条新闻数据作为机器阅读理解语料库。后来进行简单改动,形成用于单文本生成式摘要的语料库。将每篇新闻的要点按原文中出现的顺序组成多句的摘要,每个要点看成是一个句子。
数据说明
用于单文本摘要的CNN/DM数据集规模:
训练集大小: 286817
验证集大小: 13368
测试集大小: 11487
训练集中平均摘要句子数: 3.72
数据来源
https://cs.nyu.edu/~kcho/DMQA/
引用格式
@misc{dataset_916137,
title = { CNN/Daily Mail新闻数据集 },
author = { KOTO },
howpublished = { \url{https://www.heywhale.com/mw/dataset/5e672b53f278cf002d532d12} },
year = { 2020 },
}
https://www.heywhale.com/mw/dataset/5e672b53f278cf002d532d12
https://zhuanlan.zhihu.com/p/137689404
https://github.com/hellotransformers/Natural_Language_Processing_with_Transformers/blob/main/chapter6.md
https://blog.csdn.net/qq_25222361/article/details/78694617
https://zhuanlan.zhihu.com/p/504279252
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY