5分钟NLP：HuggingFace 内置数据集的使用教程

对于NLP 爱好者来说HuggingFace肯定不会陌生，因为现在几乎一提到NLP就会有HuggingFace的名字出现，HuggingFace为NLP任务提供了维护了一系列开源库的应用和实现，虽然效率不是最高的，但是它为我们入门和学习提供了非常好的帮助，今天我们来看一下用于NLP任务的数据集总结。

安装

这一步非常简单，我们将使用两个开源库。

pip install transformers datasets

数据集提供的方法

通过文档我们看到了一些主要方法。第一个是数据集的列表，可以看到HuggingFace提供了 3500 个可用数据集

from datasets import list_datasets, load_dataset, list_metrics, load_metric
# Print all the available datasets
print(list_datasets())

要实际使用数据集时可以使用 load_dataset 方法进行加载

dataset = load_dataset('acronym_identification')

加载数据集后会返回一个数据集对象。

使用数据集对象

这里的数据集并不是使用传统的 csv 或 excel 格式，而是使用对象形式，该对象以某种结构存储数据集的元数据。当打印数据集时，可以看到：

内置的数据集已经被拆分好了相应的数据阶段。在 features 和 num_rows 键中说明了列及样本数量。

完整文章：

https://www.overfit.cn/post/aac850c9aefd4b7e9543356b383fdb5f

posted @ 2022-03-19 11:10 deephub 阅读(425) 评论(0) 收藏举报

刷新页面返回顶部

deephub

overfit深度学习

5分钟NLP：HuggingFace 内置数据集的使用教程

安装

数据集提供的方法

使用数据集对象

公告