5分钟NLP:HuggingFace 内置数据集的使用教程
对于NLP 爱好者来说HuggingFace肯定不会陌生,因为现在几乎一提到NLP就会有HuggingFace的名字出现,HuggingFace为NLP任务提供了维护了一系列开源库的应用和实现,虽然效率不是最高的,但是它为我们入门和学习提供了非常好的帮助,今天我们来看一下用于NLP任务的数据集总结。
安装
这一步非常简单,我们将使用两个开源库。
pip install transformers datasets
数据集提供的方法
通过文档我们看到了一些主要方法。第一个是数据集的列表,可以看到HuggingFace提供了 3500 个可用数据集
from datasets import list_datasets, load_dataset, list_metrics, load_metric
# Print all the available datasets
print(list_datasets())
要实际使用数据集时可以使用 load_dataset 方法进行加载
dataset = load_dataset('acronym_identification')
加载数据集后会返回一个数据集对象。
使用数据集对象
这里的数据集并不是使用传统的 csv 或 excel 格式,而是使用对象形式,该对象以某种结构存储数据集的元数据。当打印数据集时,可以看到:
内置的数据集已经被拆分好了相应的数据阶段。在 features 和 num_rows 键中说明了列及样本数量。
完整文章:
https://www.overfit.cn/post/aac850c9aefd4b7e9543356b383fdb5f
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
2020-03-19 一文带你解读:卷积神经网络自动判读胸部CT图像的机器学习原理