服务器从hugging face下载数据集失败

问题

服务器没法下载外网数据导致hugging face的load_dataset下载失败。

解决方法

没找到load_dataset的源代码,想办法本地下载并上传到服务器,服务器从本地使用数据集。
示例:dataset = load_dataset("mit-han-lab/pile-val-backup", split="validation")
将该路径下的文件下载到本地。

显然只有val.jsonl.zst是数据集文件。
通过其文件类型为jsonl,查看load_dataset怎么load jsonl文件。
load方式为dataset = load_dataset("json", data_files="path_to_jsonl")
但还是会报错,经过多次print dataset发现
dataset = load_dataset("mit-han-lab/pile-val-backup", split="validation")
等价于
dataset = load_dataset("json", data_files="val_data/val.jsonl")
dataset = dataset['train']

本文作者:心比天高xzh

本文链接:https://www.cnblogs.com/xzh-personal-issue/p/18252874

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   心比天高xzh  阅读(205)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 如何使用 Uni-app 实现视频聊天(源码,支持安卓、iOS)
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起