随笔分类 - AI
摘要:Bradley Terry模型 \[P(i \succ j) = \frac{e^{s_i}}{e^{s_i} + e^{s_j}}\\e^{s_i}表示{s_i}的实力,则P(i \succ j)表示{s_i}战胜{s_j}的概率 \]假设x为prompt,LLM的response为y,评价一个回
阅读全文
摘要:假设有N块GPU,模型有ψ个参数。 前提知识:每个参数对应一个梯度值,且SGD每个参数对应一个一阶动量,Adam每个参数对应一个一阶、一个二阶动量 DP(data parallel) 数据并行(单进程,多线程,只用一个cpu核),每个GPU上都保存完整的模型参数(param,or p)与优化器状
阅读全文
摘要:for batch_prompt in prompt_dataset: batch_response = active_model.generate(batch_prompt) batch_data = concat(batch_prompt, batch_response) batch_score
阅读全文
摘要:参考: 文章 https://www.zhihu.com/tardis/bd/ans/3364787819 MoE优点: 训练速度更快,效果更好 相同参数,推理成本低 扩展性好 多任务学习能力 缺点: 训练稳定性差,需设计特别的损失函数 路由机制会增加通信的成本 模型复杂度高 稀疏性会导致过拟合 如
阅读全文
摘要:参考: 文章 https://blog.csdn.net/weixin_43646592/article/details/130924280 视频 https://www.bilibili.com/video/BV12x42127Pb?spm_id_from=333.788.videopod.sec
阅读全文
摘要:参考: 文章 https://kexue.fm/archives/10091 视频 https://www.bilibili.com/video/BV1U9zBYZEg9/?spm_id_from=333.337.search-card.all.click&vd_source=da862fa7a21
阅读全文

浙公网安备 33010602011771号