会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
猫七的blog
https://www.cnblogs.com/liuguangshou123/
博客园
首页
新随笔
联系
订阅
管理
2024年2月24日
强化学习系列(一)
摘要: 1.为什么要学习强化学习? 训练大模型时,不能仅仅使用有监督微调。 这是因为NLP中语言的多样性,大模型给出的很多答案的含义是一样的。 并且有监督微调通常需要大量的高质量问答文本,这类文本的整理需要耗费大量的人力与时间成本。 强化学习的优化目标不再是让模型输出结果与标准答案相同,而是要使模型生成高质
阅读全文
posted @ 2024-02-24 21:40 猫七的blog
阅读(5)
评论(0)
推荐(0)
编辑
公告