tinyshakespeare数据集

tinyshakespeare 是一个小型的莎士比亚文本数据集，它包含了莎士比亚的戏剧和诗歌的文本。这个数据集是由 llm.c 项目创建的，用于训练和测试语言模型。

tinyshakespeare 数据集的特点是：

它是一个小型的数据集，包含了约 1.2 万行文本。
它包含了莎士比亚的戏剧和诗歌的文本，包括《哈姆雷特》、《麦克白》、《奥赛罗》等。
文本是经过预处理的，包括了分词、去停用词、去标点符号等。
数据集是以纯文本格式存储的，可以直接用于语言模型的训练和测试。

tinyshakespeare 数据集的目的在于：

为语言模型提供一个小型的、易于处理的数据集，用于训练和测试。
为研究人员提供一个基准数据集，用于评估语言模型的性能。
为开发人员提供一个示例数据集，用于开发和测试语言模型。

tinyshakespeare 数据集可以从 llm.c 项目的 GitHub 页面下载。

posted @ 2024-08-04 16:21 立体风阅读(407) 评论(0) 收藏举报

刷新页面返回顶部