大模型面试问题总结

1)大模型问什么都使用decoder-only

      a)工程上应用上方便处理多轮对话;

      b)在没有微调的情况下,其更容易处理zero-shot generation;

      c)encoder-decoder在微调之后效果优于decoder-only,但是参数量巨大,考虑到性能和计算资源上的消耗更少;

      d)encoder之所以用处不大,attention matrix是低秩的,而decoder-only中的attention matrix是triangle matrix,因此一定是满秩的,表达能力更强。

2)大模型如何解决生成的内容重复的问题

     具体可参考:https://zhuanlan.zhihu.com/p/631847634

3)领域大模型LLM训练Trick

     具体可参考:https://zhuanlan.zhihu.com/p/656244605

 

posted on   limingqi  阅读(865)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示