11 2023 档案

浮点数格式：FP64, FP32, FP16, BFLOAT16, TF32之间的相互区别

摘要：浮点数格式（参考1，参考2）浮点数是一种用二进制表示的实数，它由三个部分组成：sign（符号位）、exponent（指数位）和fraction（小数位）。不同的浮点数格式有不同的位数分配给这三个部分，从而影响了它们能表示的数值范围和精度。例如：下面是一些常见的浮点数格式的介绍： FP64（双精阅读全文

posted @ 2023-11-20 10:08 kkzhang 阅读(14577) 评论(0) 推荐(1)

TRL(Transformer Reinforcement Learning) PPO Trainer 学习笔记

摘要：(1) PPO Trainer TRL支持PPO Trainer通过RL训练语言模型上的任何奖励信号。奖励信号可以来自手工制作的规则、指标或使用奖励模型的偏好数据。要获得完整的示例，请查看examples/notebooks/gpt2-sentiment.ipynb。Trainer很大程度上受到了原阅读全文

posted @ 2023-11-13 15:44 kkzhang 阅读(2796) 评论(0) 推荐(0)

基于LoRA的RLHF

摘要：参考Github 开源模型 LLM-Tuning 一、简介（1）RLHF (基于人类反馈的强化学习) 分为三步： SFT (Supervised Fine-Tuning): 有监督的微调，使用正常的 instruction following 或者对话的样本，来训练模型的基础对话、听从 promp 阅读全文

posted @ 2023-11-09 16:03 kkzhang 阅读(1899) 评论(0) 推荐(0)

基于人类反馈的强化学习，Reinforcement Learning from Human Feedback (RLHF)

摘要：基于人类反馈的强化学习， RLHF，转载参考链接 RLHF 是一项涉及多个模型和不同训练阶段的复杂概念，可以按三个步骤分解：预训练一个语言模型 (LM) ；聚合问答数据并训练一个奖励模型 (Reward Model，RM) ；用强化学习 (RL) 方式微调 LM。 Step 1. 预训练语言模阅读全文

posted @ 2023-11-09 10:39 kkzhang 阅读(2104) 评论(0) 推荐(1)

2025年4月

日

一

二

三

四

五

六

公告

昵称： kkzhang
园龄： 8年4个月
粉丝： 78
关注： 8

+加关注

Dream

11 2023 档案

公告

搜索

常用链接

我的标签

积分与排名

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论