tinyshakespeare数据集
tinyshakespeare 是一个小型的莎士比亚文本数据集,它包含了莎士比亚的戏剧和诗歌的文本。这个数据集是由 llm.c 项目创建的,用于训练和测试语言模型。
tinyshakespeare 数据集的特点是:
- 它是一个小型的数据集,包含了约 1.2 万行文本。
- 它包含了莎士比亚的戏剧和诗歌的文本,包括《哈姆雷特》、《麦克白》、《奥赛罗》等。
- 文本是经过预处理的,包括了分词、去停用词、去标点符号等。
- 数据集是以纯文本格式存储的,可以直接用于语言模型的训练和测试。
tinyshakespeare 数据集的目的在于:
- 为语言模型提供一个小型的、易于处理的数据集,用于训练和测试。
- 为研究人员提供一个基准数据集,用于评估语言模型的性能。
- 为开发人员提供一个示例数据集,用于开发和测试语言模型。
tinyshakespeare 数据集可以从 llm.c 项目的 GitHub 页面下载。