享乐跑步机

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
  3 随笔 :: 0 文章 :: 0 评论 :: 122 阅读
< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8

2024年11月4日

配置HF镜像

注意:如果无法访问HuggingFace可以访问它的国内镜像站,方法如下:
先安装依赖:

pip install -U huggingface_hub

然后在代码的头部加入下面的环境变量设置,记得一定要加载代码的最前面,在import datastes之前。

import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'

加载数据

HuggingFace对于AI模型训练所需要的数据集进行了规范并且提供了数据加载的工具,对模型的迁移的微调都带来了很大的方便。
比如下面的代码是加载HF上的一个别人已经训练好的数据的数据集:

from datasets import load_dataset

ds = load_dataset("whalning/Chinese-disease-question-classification")

这个数据集位于:

https://hf-mirror.com/datasets/whalning/Chinese-disease-question-classification

接下来可以打印一下,观察数据集的结构

print(ds)

输出结果如下:

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 32000
    })
})

从中可以看出,这个数据集包含 text和label两列,共有32000条数据。
我们在训练模型时,可以对数据进行打乱和选取部分的操作。比如下面这样:

# 'train'代表
train_ds = ds["train"].shuffle().select(range(2000))
print(train_ds)

其中:

  • train:代表取出train数据集
  • shuffle(): 代表对数据进行打乱,这样有利于训练提升准确度
  • select:代表选择的数据量。
    输出结果如下:
Dataset({
    features: ['text', 'label'],
    num_rows: 2000
})

我们也可以通过将HF上的数据保存到本地磁盘,这样就不用每次都联机加载。

ds = load_dataset("whalning/Chinese-disease-question-classification")
ds.save_to_disk("data")

由于我们有时候得到的数据集没有validation和test数据集,所以我们可以从train数据集中取出一部分当作这两个集合的数据。比如:

# 从本机已经下载的磁盘路径加载数据
dataset=load_dataset(path="./data/")
print(dataset)
# 取出 3000 个数据作为训练集合
dataset["train"]=dataset["train"].shuffle().select(range(3000)) 
# 取出 500 个数据作为测试集合
dataset["test"]=dataset["train"].shuffle().select(range(500))
posted @ 2024-11-04 21:58 imEric 阅读(89) 评论(0) 推荐(0) 编辑

2024年11月3日

摘要: 如果你是一个公司的产品经理,我问你一个问题:“给产品增加新功能的标准是什么?” 答案可能是: 同行业竞争对手产品的某些功能 客户需要的功能 最开始做产品规划时,还没有实现的功能 老板想要的功能 这些看起来都没错,但是却有一个隐含的问题:“上述这些所谓的功能,能给客户带来什么价值?”。 竞争对手有而我 阅读全文
posted @ 2024-11-03 20:41 imEric 阅读(8) 评论(0) 推荐(0) 编辑

2023年10月4日

摘要: 昨晚睡得也挺早,但是早上就是觉得不想起床,于是一直睡到11点多,起来后的现象就是头疼,非常的头疼。 阅读全文
posted @ 2023-10-04 15:04 imEric 阅读(25) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示