摘要:
想学习第一篇博客: https://huggingface.co/blog/zh/rlhf RLHF 技术分解 RLHF 是一项涉及多个模型和不同训练阶段的复杂概念,这里我们按三个步骤分解: 预训练一个语言模型 (LM) ; 聚合问答数据并训练一个奖励模型 (Reward Model,RM) ; 用 阅读全文
摘要:
https://huggingface.co/blog/peft 看代码: from transformers import AutoModelForSeq2SeqLM + from peft import get_peft_model, LoraConfig, TaskType model_nam 阅读全文
摘要:
有关计算机和数学问题可以15122306087联系我wechat 阅读全文