大模型面试问题总结
1)大模型问什么都使用decoder-only
a)工程上应用上方便处理多轮对话;
b)在没有微调的情况下,其更容易处理zero-shot generation;
c)encoder-decoder在微调之后效果优于decoder-only,但是参数量巨大,考虑到性能和计算资源上的消耗更少;
d)encoder之所以用处不大,attention matrix是低秩的,而decoder-only中的attention matrix是triangle matrix,因此一定是满秩的,表达能力更强。
2)大模型如何解决生成的内容重复的问题
具体可参考:https://zhuanlan.zhihu.com/p/631847634
3)领域大模型LLM训练Trick
具体可参考:https://zhuanlan.zhihu.com/p/656244605