随笔 - 934, 文章 - 0, 评论 - 249, 阅读 - 345万

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

清华大学和智谱AI团队研究发现:

大模型的涌现能力预训练loss的关系比模型参数更紧密。

https://arxiv.org/pdf/2403.15796

这篇论文《从损失角度理解语言模型的涌现能力》通过将预训练损失作为评估指标,强调了在理解和评价语言模型的涌现能力时,损失的重要性可能超过了模型参数的多少。

涌现能力

指的是模型在达到一定的规模和复杂性后,能够展现出一些在训练过程中未直接教授的能力或行为。

例如,某些大型语言模型可能在没有特定指导的情况下,自行学会翻译或总结文本,或者会说出一些并没教过的知识。

预训练loss

预训练阶段是在模型正式进行特定任务学习前,使用大量未标记半标记数据进行训练的阶段。

这个阶段的损失(loss),即模型预测与实际数据之间的差异,是衡量模型学习效果的一个重要指标。

损失越小,表示模型对训练数据的拟合越好,理解能力越强(并不是损失越小越好,会出现过拟合)。

模型参数

指构成模型的各种权重和偏置等参数的总数。通常认为参数越多,模型的理论学习能力越强。

该论文的观点

当语言模型的预训练损失降至某个特定阈值以下时,模型会开始在各种任务上表现出涌现能力,其表现显著优于随机猜测水平。


论文中的图表 4(Figure 4: The performance-vs-loss curves of different metrics on MMLU and C-Eval)展示当语言模型的预训练损失降至某个特定阈值以下时,模型在各种任务上的表现如何显著优于随机猜测水平。

重要的是,这种表现与模型的大小或训练数据量无关,这表明解锁这些能力的关键在于将预训练损失优化至关键值以下。

这就会出现:

传统上认为只有大型模型才具有的突发能力,也可以在较小的模型中观察到。

总结

在这篇论文中,清华大学与智谱AI团队共同揭示了语言模型的涌现能力与预训练损失之间的紧密联系。研究指出,相比于模型的参数数量,预训练阶段的损失更为关键。

论文通过详细分析指出,当模型的预训练损失降至一定的阈值以下时,模型将展示出如涌现能力,这些能力通常未在训练过程中直接教授。

值得注意的是,这些涌现能力并不依赖于模型的大小或训练数据的量,突破了传统上只有大型模型才具有的涌现能力观点。

此发现对于未来模型的设计和优化提供了新的视角,强调了优化预训练损失的重要性。

相关博文:
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示
历史上的今天:
2022-04-28 Gonum矩阵计算 - 逐元素乘法和除法
2011-04-28 Android的进程,线程模型
2010-04-28 书写SQL时也获得智能提示
点击右上角即可分享
微信分享提示