大模型面试问题总结
1)大模型问什么都使用decoder-only
a)工程上应用上方便处理多轮对话;
b)在没有微调的情况下,其更容易处理zero-shot generation;
c)encoder-decoder在微调之后效果优于decoder-only,但是参数量巨大,考虑到性能和计算资源上的消耗更少;
d)encoder之所以用处不大,attention matrix是低秩的,而decoder-only中的attention matrix是triangle matrix,因此一定是满秩的,表达能力更强。
2)大模型如何解决生成的内容重复的问题
具体可参考:https://zhuanlan.zhihu.com/p/631847634
3)领域大模型LLM训练Trick
具体可参考:https://zhuanlan.zhihu.com/p/656244605
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架