马斯克AI大模型Grok开源了!

2024年3月18日,马斯克的AI创企xAI兑现承诺,正式发布了此前备受期待大模型Grok-1。

代码和模型权重已上线GitHub: https://github.com/xai-org/grok-1

截止目前,Grok已经在GitHub上获得了35.2k颗Star,还在不断上升中。

在这里插入图片描述

Grok官方博客介绍:https://x.ai/blog/grok-os在这里插入图片描述

遵照Apache 2.0协议开放了Grok-1混合专家模型的权重与架构,Grok-1其参数量达到了3140亿,远超OpenAI GPT-3.5的1750亿,这是迄今为止参数量最大的开源大语言模型。

在这里插入图片描述

Grok-1模型的技术细节和设计规格如下:

  1. 基于大量文本数据上训练的基础模型,没有针对任何特定任务进行微调。
  2. 混合专家模型(MoE):采用混合专家系统设计,每个token从8个专家中选择2个进行处理。
  3. 参数数量:拥有3140亿个参数,激活权重占25%。也就是有860亿激活参数,显示出模型处理语言任务的潜力。
  4. 包含64个Transformer层,每层都有多头注意力块和密集块,注意力头数为查询48个,键/值8个。
  5. 使用旋转位置嵌入 (RoPE)处理序列数据,Tokenization词汇量为131072,嵌入大小为6144。
  6. 提供8位量化的权重,有助于减少模型的存储和计算需求,适合资源有限的环境。
  7. 运行要求:模型规模巨大(314B参数),需要具有足够GPU内存的机器运行,以每参数2字节来算,大概需要628GB的GPU内存(一张性价比最高的4090有24G显存,大概二三十张4090)。
  8. xAI 于 2023 年 10 月在 JAX 和 Rust 上使用自定义训练堆栈从头开始训练。

使用指南

当前,Grok-1 面向所有人开放,而要开始使用该模型,可以先确保下载 checkpoint 并将 ckpt-0 目录放入 checkpoint。然后,运行:

pip install -r requirements.txt
python run.py

进而测试代码。

脚本在测试输入上加载检查点和模型样本。

值得注意的事,Grok-1 参数量高达 314B 个参数,其模型体积庞大,需要配备足够 GPU 内存的机器才能使用示例代码测试模型。

xAI 团队在 GitHub 项目仓库里面也直言道:该资源库中 MoE 层的实现并不高效。选择这种实现方式是为了避免需要定制内核来验证模型的正确性。

你可以使用 torrent 客户端和下面磁铁链接下载权重:

magnet:xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

既然用户可以免费将Grok用于商业用途,进行修改和分发,而且没有附加条款,

那Grok的开源无疑将为人工智能技术的发展和应用带来新的机遇,并为互联网创作者提供新的舞台。

var code = “682fbd7d-e031-41bb-bb24-5b7705c0c823”
在这里插入图片描述

posted @ 2024-03-20 10:00  ElaineTiger  阅读(106)  评论(0编辑  收藏  举报  来源