大模型面试问题总结

1)大模型问什么都使用decoder-only

      a)工程上应用上方便处理多轮对话;

      b)在没有微调的情况下,其更容易处理zero-shot generation;

      c)encoder-decoder在微调之后效果优于decoder-only,但是参数量巨大,考虑到性能和计算资源上的消耗更少;

      d)encoder之所以用处不大,attention matrix是低秩的,而decoder-only中的attention matrix是triangle matrix,因此一定是满秩的,表达能力更强。

2)大模型如何解决生成的内容重复的问题

     具体可参考:https://zhuanlan.zhihu.com/p/631847634

3)领域大模型LLM训练Trick

     具体可参考:https://zhuanlan.zhihu.com/p/656244605

 

posted on 2023-10-29 19:35  limingqi  阅读(770)  评论(0编辑  收藏  举报

导航