tinyshakespeare数据集

tinyshakespeare 是一个小型的莎士比亚文本数据集,它包含了莎士比亚的戏剧和诗歌的文本。这个数据集是由 llm.c 项目创建的,用于训练和测试语言模型。

tinyshakespeare 数据集的特点是:

  • 它是一个小型的数据集,包含了约 1.2 万行文本。
  • 它包含了莎士比亚的戏剧和诗歌的文本,包括《哈姆雷特》、《麦克白》、《奥赛罗》等。
  • 文本是经过预处理的,包括了分词、去停用词、去标点符号等。
  • 数据集是以纯文本格式存储的,可以直接用于语言模型的训练和测试。

tinyshakespeare 数据集的目的在于:

  • 为语言模型提供一个小型的、易于处理的数据集,用于训练和测试。
  • 为研究人员提供一个基准数据集,用于评估语言模型的性能。
  • 为开发人员提供一个示例数据集,用于开发和测试语言模型。

tinyshakespeare 数据集可以从 llm.c 项目的 GitHub 页面下载。

posted @   立体风  阅读(165)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
点击右上角即可分享
微信分享提示