2024 年 4月随笔档案 - 萤火架构

扎克伯格说，Llama3-8B还是太大了，量化、剪枝、蒸馏准备上！

2024-04-25 08:09 by 萤火架构, 1392 阅读, 收藏, 编辑

摘要：扎克伯格说，Llama3-8B还是太大了，不适合放到手机中，有什么办法？量化、剪枝、蒸馏，如果你经常关注大语言模型，一定会看到这几个词，单看这几个字，我们很难理解它们都干了些什么，但是这几个词对于现阶段的大语言模型发展特别重要，它们就是将模型缩小的利器。这篇文章就带大家来认识认识它们，理解其中的原阅读全文

0 Comment

Llama3-8B到底能不能打？实测对比

2024-04-23 13:22 by 萤火架构, 8554 阅读, 收藏, 编辑

摘要：前几天Meta开源发布了新的Llama大语言模型：Llama-3系列，本次一共发布了两个版本：Llama-3-8B和Llama-3-70B，根据Meta发布的测评报告，Llama-3-8B的性能吊打之前的Llama-2-70B，也就是说80亿参数的模型干掉了700亿参数的模型，这个还真挺让人震惊的。阅读全文

2 Comment

十分钟学会微调大语言模型

2024-04-19 08:05 by 萤火架构, 2690 阅读, 收藏, 编辑

摘要：完整的大语言模型训练成本比较高昂，不是我们业余玩家能搞的，如果我们只是想在某个业务场景或者垂直的方面加强大模型的能力，可以进行微调训练。阅读全文

1 Comment

阿里开源的32B大模型到底强在哪里？

2024-04-10 08:13 by 萤火架构, 2503 阅读, 收藏, 编辑

摘要：阿里巴巴最近开源了一个320亿参数的大语言模型Qwen1.5-32B，网上都说很强很强，那么它到底强在哪里呢？更高的性价比 Qwen1.5-32B中的B是billion的意思，也就是10亿，32B就代表320亿参数量。阿里之前还开源过一个大模型Qwen-1.5-72B，72B就代表720亿参数量阅读全文

4 Comment

萤火架构经典和梦想只会越来越少

随笔档案-2024年04月

扎克伯格说，Llama3-8B还是太大了，量化、剪枝、蒸馏准备上！

Llama3-8B到底能不能打？实测对比

十分钟学会微调大语言模型

阿里开源的32B大模型到底强在哪里？

About

最新评论

随笔档案

相册

我的标签

随笔分类

合集

萤火架构 经典和梦想只会越来越少

随笔档案-2024年04月

扎克伯格说，Llama3-8B还是太大了，量化、剪枝、蒸馏准备上！

Llama3-8B到底能不能打？实测对比

十分钟学会微调大语言模型

阿里开源的32B大模型到底强在哪里？

About

最新评论

随笔档案

相册

我的标签

随笔分类

合集

萤火架构经典和梦想只会越来越少