大模型面试问题总结
摘要:
1)大模型问什么都使用decoder-only a)工程上应用上方便处理多轮对话; b)在没有微调的情况下,其更容易处理zero-shot generation; c)encoder-decoder在微调之后效果优于decoder-only,但是参数量巨大,考虑到性能和计算资源上的消耗更少; d)e 阅读全文
posted @ 2023-10-29 19:35 limingqi 阅读(770) 评论(0) 推荐(0) 编辑