摘要: MC4 是C4 的子集,MC4 是从公共 Common Crawl 存储库中提取的约 750GB 英语文本的集合。Common Crawl 包含数十亿个从 Internet 抓取的网页。尽管 C4 数据集被明确设计为仅英语,但 MC4 覆盖了 Common Crawl 迄今为止发布的 108 种语言 阅读全文
posted @ 2023-07-11 19:58 张Zong在修行 阅读(457) 评论(0) 推荐(0) 编辑