Fork me on GitHub

小模型(SLM)的效率、性能和潜力

关于小语言模型

小语言模型(slm)是为在桌面、智能手机和可穿戴设备上进行资源高效部署而设计的。

其目标是使先进的机器智能能够为每个人所使用和负担得起,就像人类认知的普遍性一样。

小语言模型(slm)已经广泛集成到商业设备中。例如,最新的谷歌和三星智能手机内置了大型语言模型(LLM)服务,如 Gemini Nano,它允许第三方应用程序通过提示和模块化集成来访问 LLM 功能。

同样,iphone 和 ipad 上最新的 iOS 系统包括一个与操作系统紧密集成的设备上基础模型,既增强了性能,又增强了隐私。这种广泛采用显示了 slm 在日常技术中的潜力。

通过在个人设备上启用人工智能功能,slm 旨在使强大技术的使用民主化,使人们能够随时随地使用智能系统,而无需依赖基于云的资源。

slm 的关键见解:

  1.  2022 年 2024 年,slm 在语言任务上表现出了显著的性能提升,超过了 LLaMA-7B 系列,表明了在设备上解决任务的强大潜力。
  2. Phi 系列,特别是 Phi-3-mini 在 2024 年 9 月之前达到了领先的精度,部分原因是数据工程和微调技术
  3. 虽然较大的型号通常表现更好,但像 Qwen2-1.5B 这样的较小型号在特定任务中表现出色。
  4. 在开源数据上训练的 slm 正在改进,但在复杂的推理任务中,特别是涉及逻辑和数学的任务,仍然落后于闭源模型。
  5. 大多数 slm 都具有一定程度的上下文学习,但其有效性因任务而异。虽然几乎所有模型都从任务中的上下文学习中受益匪浅。
  6. 模型架构会显著影响延迟和模型大小。
  7. 模型的架构,包括层和词汇量大小等因素,会影响其速度和内存使用。例如,Qwen1.5-0.5B 比 Qwen2-0.5B 有更多的参数,但在某些硬件上运行得更快,这表明性能取决于设备。
  8. 语言模型对“小”的定义是主观的,随着设备内存的增加,可能会随着时间的推移而改变,这使得将来更大的模型被认为是“小”的。
  9. 目前,小型语言模型的参数限制为 50 亿,因为到 2024 年 9 月,70
    亿个参数模型仍主要部署在云中。
  10. 这种区别反映了硬件不断发展的能力和当时的实际部署限制。
  11. 数据质量对小语言模型(Small Language Models, slm)的性能至关重要,

在最近的研究中得到了越来越多的关注。

一般来说,数据的质量比数据的数量或特定的模型架构更重要。

posted @ 2024-09-28 22:49  石头木  阅读(12)  评论(0编辑  收藏  举报