tinyshakespeare数据集

tinyshakespeare 是一个小型的莎士比亚文本数据集,它包含了莎士比亚的戏剧和诗歌的文本。这个数据集是由 llm.c 项目创建的,用于训练和测试语言模型。

tinyshakespeare 数据集的特点是:

  • 它是一个小型的数据集,包含了约 1.2 万行文本。
  • 它包含了莎士比亚的戏剧和诗歌的文本,包括《哈姆雷特》、《麦克白》、《奥赛罗》等。
  • 文本是经过预处理的,包括了分词、去停用词、去标点符号等。
  • 数据集是以纯文本格式存储的,可以直接用于语言模型的训练和测试。

tinyshakespeare 数据集的目的在于:

  • 为语言模型提供一个小型的、易于处理的数据集,用于训练和测试。
  • 为研究人员提供一个基准数据集,用于评估语言模型的性能。
  • 为开发人员提供一个示例数据集,用于开发和测试语言模型。

tinyshakespeare 数据集可以从 llm.c 项目的 GitHub 页面下载。

posted @ 2024-08-04 16:21  立体风  阅读(91)  评论(0编辑  收藏  举报