07 2024 档案

摘要:为何decoder-only结构 总结:decoder-only在参数较少情况就能激发很强zero-shot能力,而且模型的上限更高,训练和推理都更有效率;在Incontext Learning情况下,few-shot能力更好 decoder-only结构的attention矩阵倒三角形满秩矩阵,表 阅读全文
posted @ 2024-07-31 20:29 adam86546853 阅读(68) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示