【转载】大型语言模型最新综述:从T5到GPT-4最全盘点
https://mp.weixin.qq.com/s/M4TEptR5-pNfOBjCYlNfJg
论文链接:https://arxiv.org/abs/2303.18223
-
LLMs 的涌现能力:上下文学习、指令遵循、循序渐进的推理
-
关键技术:缩放、训练、能力激发、对齐调优、工具利用等
百亿大模型:
常用数据源:
预训练数据源分布:
主流架构:
调优:
指令调优、对齐调优
前者用于语言生成,后者用于多模态对齐