大模型面试问题总结

1）大模型问什么都使用decoder-only

a）工程上应用上方便处理多轮对话；

b）在没有微调的情况下，其更容易处理zero-shot generation；

c）encoder-decoder在微调之后效果优于decoder-only，但是参数量巨大，考虑到性能和计算资源上的消耗更少；

d）encoder之所以用处不大，attention matrix是低秩的，而decoder-only中的attention matrix是triangle matrix，因此一定是满秩的，表达能力更强。

2）大模型如何解决生成的内容重复的问题

具体可参考：https://zhuanlan.zhihu.com/p/631847634

3）领域大模型LLM训练Trick

具体可参考：https://zhuanlan.zhihu.com/p/656244605

posted on 2023-10-29 19:35 limingqi 阅读(1057) 评论(0) 收藏举报

刷新页面返回顶部