2023 年 3月随笔档案 - 写bug的程旭源

03 2023 档案

基于Pytorch2对比 FlashAttention、Memory-Efficient Attention、CausalSelfAttention

摘要：本文主要是Pytorch2.0 的小实验，在MacBookPro 上体验一下等优化改进后的Transformer Self Attention的性能，具体的有 FlashAttention、Memory-Efficient Attention、CausalSelfAttention 等。主要是tor 阅读全文

posted @ 2023-03-19 19:51 写bug的程旭源阅读(989) 评论(0) 推荐(0) 编辑

自驱力超强的羊驼？斯坦福微调LLaMa

摘要：大型“指令调优”语言模型在新任务上展现了Zero-shot的卓越能力，但严重依赖于人类编写的指令数据，而这些数据在数量、多样性和创造性方面都是有限的。斯坦福科研人员引入了self-instruction框架，提高指令遵循能力来自我迭代进化，与InstructGPT的性能相当，相比原始GPT3提升3 阅读全文

posted @ 2023-03-14 17:54 写bug的程旭源阅读(15) 评论(0) 推荐(0) 编辑

随笔分类

随笔档案

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜