2024 年 1月 18 日随笔档案 - deephub

2024年1月18日

摘要： 2024年是大型语言模型(llm)的快速发展的一年，对于大语言模型的训练一个重要的方法是对齐方法，它包括使用人类样本的监督微调(SFT)和依赖人类偏好的人类反馈强化学习(RLHF)。这些方法在llm中发挥了至关重要的作用，但是对齐方法对人工注释数据有的大量需求。这一挑战使得微调成为一个充满活力的研究阅读全文

posted @ 2024-01-18 10:04 deephub 阅读(40) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告