MiniMind环境搭建&训练推理测试

引子

写了那么多篇大模型环境搭建推理部署的blog，如果没记错有几篇就是因为GPU资源hold不住，没有无法得到最终结果的（智谱AI GLM-4V-9B视觉大模型环境搭建&推理-CSDN博客）。我个人一直觉得大模型发展最终还是要走向端侧，小型化，只是也许没那么快来到。但是这个方向还是一直要有人坚持去做的，这不，这两天翻到一个，MiniMind，只要3小时就能训练一个26M的大模型。OK，那就让我们开始吧。

一、模型介绍

MiniMind 是一个轻量级的大语言模型项目，让用户可以在个人设备上快速训练和运行GPT模型。该项目可以使用极小的数据和计算资源，在3小时内训练出一个26M的模型（ps：也许有读者会问，为啥我总是写推理，没有写训练，那显然是我没那个硬件条件呀，嗯，那这会儿这个条件有了。），使大模型技术使用更加简单。MiniMind 支持单机单卡和多卡训练，兼容多个流行的框架，并提供完整的代码和文档支持，帮助初学者和研究者快速上手并进行定制和扩展。MiniMind现在总共有5个模型，最小的是26M，已经有不错的对话能力了。