摘要: 1.为什么要学习强化学习? 训练大模型时,不能仅仅使用有监督微调。 这是因为NLP中语言的多样性,大模型给出的很多答案的含义是一样的。 并且有监督微调通常需要大量的高质量问答文本,这类文本的整理需要耗费大量的人力与时间成本。 强化学习的优化目标不再是让模型输出结果与标准答案相同,而是要使模型生成高质 阅读全文
posted @ 2024-02-24 21:40 猫七的blog 阅读(5) 评论(0) 推荐(0) 编辑