会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
zhangxuegold
博客园
首页
新随笔
联系
订阅
管理
2023年7月11日
NLP | mC4数据集
摘要: MC4 是C4 的子集,MC4 是从公共 Common Crawl 存储库中提取的约 750GB 英语文本的集合。Common Crawl 包含数十亿个从 Internet 抓取的网页。尽管 C4 数据集被明确设计为仅英语,但 MC4 覆盖了 Common Crawl 迄今为止发布的 108 种语言
阅读全文
posted @ 2023-07-11 19:58 张Zong在修行
阅读(457)
评论(0)
推荐(0)
编辑
公告