huggingface datasets数据集本地化

有时候服务器访问不了外网,可以现在可以访问外网的机器上先把数据集给下好,然后传到对应服务器进行加载。

 

1. 首先下载并存储数据:

import datasets
dataset = datasets.load_dataset("dataset_name")
dataset.save_to_disk('your_path')

 

2. 然后把数据集上传到指定服务器地址,并进行本地加载:

import datasets
dataset = load_from_disk("your_path")

 

注意:保存数据集所用机器上的datasets版本和使用本地数据集的datasets的版本要一致才行,不然可能会出现数据集加载错误的情况。

posted @ 2023-03-03 17:13  Shiyu_Huang  阅读(4161)  评论(0编辑  收藏  举报