2024 年 2月 24 日随笔档案 - 猫七的blog

2024年2月24日

摘要： 1.为什么要学习强化学习？训练大模型时，不能仅仅使用有监督微调。这是因为NLP中语言的多样性，大模型给出的很多答案的含义是一样的。并且有监督微调通常需要大量的高质量问答文本，这类文本的整理需要耗费大量的人力与时间成本。强化学习的优化目标不再是让模型输出结果与标准答案相同，而是要使模型生成高质阅读全文

posted @ 2024-02-24 21:40 猫七的blog 阅读(5) 评论(0) 推荐(0) 编辑

猫七的blog

https://www.cnblogs.com/liuguangshou123/

公告