huggingface datasets数据集本地化
有时候服务器访问不了外网,可以现在可以访问外网的机器上先把数据集给下好,然后传到对应服务器进行加载。
1. 首先下载并存储数据:
import datasets dataset = datasets.load_dataset("dataset_name") dataset.save_to_disk('your_path')
2. 然后把数据集上传到指定服务器地址,并进行本地加载:
import datasets dataset = load_from_disk("your_path")
注意:保存数据集所用机器上的datasets版本和使用本地数据集的datasets的版本要一致才行,不然可能会出现数据集加载错误的情况。
黄世宇/Shiyu Huang's Personal Page:https://huangshiyu13.github.io/