大模型面试问题总结
摘要:1)大模型问什么都使用decoder-only a)工程上应用上方便处理多轮对话; b)在没有微调的情况下,其更容易处理zero-shot generation; c)encoder-decoder在微调之后效果优于decoder-only,但是参数量巨大,考虑到性能和计算资源上的消耗更少; d)e
阅读全文
posted @ 2023-10-29 19:35
posted @ 2023-10-29 19:35
Powered by:
博客园
Copyright © 2025 limingqi
Powered by .NET 9.0 on Kubernetes
|
|||||||||
日 | 一 | 二 | 三 | 四 | 五 | 六 | |||
---|---|---|---|---|---|---|---|---|---|
23 | 24 | 25 | 26 | 27 | 28 | 1 | |||
2 | 3 | 4 | 5 | 6 | 7 | 8 | |||
9 | 10 | 11 | 12 | 13 | 14 | 15 | |||
16 | 17 | 18 | 19 | 20 | 21 | 22 | |||
23 | 24 | 25 | 26 | 27 | 28 | 29 | |||
30 | 31 | 1 | 2 | 3 | 4 | 5 |
您好,请问为什么只算了划分点s=1.5的情况,我理解如果s=2.5,3.5的话也会有对应的最优解,为什么不继续计算了呢?
参加过贪心科技的课程么