2023 年 12月 16 日随笔档案 - 又见阿郎

2023年12月16日

摘要：概述大模型有两个流程：预训练和推理。预训练是在某种神经网络模型架构上，导入大规模语料数据，通过一系列的神经网络隐藏层的矩阵计算、微分计算等，输出权重，学习率，模型参数等超参数信息。推理是在预训练的成果上，应用超参数文件，基于预训练结果，根据用户的输入信息，推理预测其行为。 GLM模型原理的理解阅读全文

posted @ 2023-12-16 11:08 又见阿郎阅读(678) 评论(0) 推荐(0) 编辑

又见阿郎

公告