代码改变世界

随笔档案-2024年04月

扎克伯格说,Llama3-8B还是太大了,量化、剪枝、蒸馏准备上!

2024-04-25 08:09 by 萤火架构, 1392 阅读, 收藏, 编辑
摘要: 扎克伯格说,Llama3-8B还是太大了,不适合放到手机中,有什么办法? 量化、剪枝、蒸馏,如果你经常关注大语言模型,一定会看到这几个词,单看这几个字,我们很难理解它们都干了些什么,但是这几个词对于现阶段的大语言模型发展特别重要,它们就是将模型缩小的利器。这篇文章就带大家来认识认识它们,理解其中的原 阅读全文

Llama3-8B到底能不能打?实测对比

2024-04-23 13:22 by 萤火架构, 8554 阅读, 收藏, 编辑
摘要: 前几天Meta开源发布了新的Llama大语言模型:Llama-3系列,本次一共发布了两个版本:Llama-3-8B和Llama-3-70B,根据Meta发布的测评报告,Llama-3-8B的性能吊打之前的Llama-2-70B,也就是说80亿参数的模型干掉了700亿参数的模型,这个还真挺让人震惊的。 阅读全文

十分钟学会微调大语言模型

2024-04-19 08:05 by 萤火架构, 2690 阅读, 收藏, 编辑
摘要: 完整的大语言模型训练成本比较高昂,不是我们业余玩家能搞的,如果我们只是想在某个业务场景或者垂直的方面加强大模型的能力,可以进行微调训练。 阅读全文

阿里开源的32B大模型到底强在哪里?

2024-04-10 08:13 by 萤火架构, 2503 阅读, 收藏, 编辑
摘要: 阿里巴巴最近开源了一个320亿参数的大语言模型Qwen1.5-32B,网上都说很强很强,那么它到底强在哪里呢? 更高的性价比 Qwen1.5-32B中的B是billion的意思,也就是10亿,32B就代表320亿参数量。 阿里之前还开源过一个大模型Qwen-1.5-72B,72B就代表720亿参数量 阅读全文
点击右上角即可分享
微信分享提示