美熙科技说
大模型
posts - 27,comments - 0,views - 4471
03 2023 档案
基于Pytorch2对比 FlashAttention、Memory-Efficient Attention、CausalSelfAttention
摘要:本文主要是Pytorch2.0 的小实验,在MacBookPro 上体验一下等优化改进后的Transformer Self Attention的性能,具体的有 FlashAttention、Memory-Efficient Attention、CausalSelfAttention 等。主要是tor 阅读全文
posted @ 2023-03-19 19:51 写bug的程旭源 阅读(989) 评论(0) 推荐(0) 编辑
自驱力超强的羊驼?斯坦福微调LLaMa
摘要:大型“指令调优”语言模型在新任务上展现了Zero-shot的卓越能力,但严重依赖于人类编写的指令数据,而这些数据在数量、多样性和创造性方面都是有限的。 斯坦福科研人员引入了self-instruction框架,提高指令遵循能力来自我迭代进化,与InstructGPT的性能相当,相比原始GPT3提升3 阅读全文
posted @ 2023-03-14 17:54 写bug的程旭源 阅读(15) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示