大模型开源生态与硬件选型

大模型时代的 Github: Hugging Face

Hugging Face 是什么？

Hugging Face 是一家2016年成立的总部位于纽约的 AI 初创公司。最早是一家开发聊天机器人的企业。他们的目标是使用聊天机器人为无聊的年轻人解闷。当然，这样的创意虽然看起来很好，但显然并没有做得很大。

HuggingFace 转型契机：主要来源于它在NLP领域的贡献。在Bert发布不久之后，他们贡献了一个基于Pytorch的Bert预训练模型，即pytorch-pretrained-bert。

Hugging Face Transformers

https://github.com/huggingface/transformers

Hugging Face 在 GitHub上维护了一个庞大的开源社区，提供了丰富的机器学习（ML）工具和模型，其中最著名的项目是Transformers。 Transformers：先进的机器学习库，提供了基于TensorFlow、PyTorch、 JAX实现的各种SOTA模型和工具

Hugging Face 开源社区

Hugging Face 公司提供了一个面向机器学习和数据科学的开源社区。它包含超过300,000个模型、50,000个数据集和100,000个名为Spaces的Demo Apps ：

https://huggingface.co/docs

HF Models：用户可以在这里共享、下载和部署预训练模型。此外，他们还提供了Inference API，使开发者能够轻松地使用这些模型进行自然语言处理任务，无需深入了解模型的内部工作原理。
HF Datasets：针对机器学习和大语言模型的各类任务，提供了一个分享和交流数据集的平台，便于缺少数据的开发者和用户快速启动项目。
HF Spaces： Hugging Face通过提供AI计算资源来实现盈利。他们提供 AutoTrain、Spaces和Inference Endpoints等服务, 用于将模型集成到实际应用中。
HF Docs：除了开源项目和商业产品，Hugging Face 还积极参与教育和研究社区，为学生、研究人员和开发者提供教程、文档和资源，以帮助他们更好地理解和应用ML和LLM技术。

HF Open LLM Leaderboard （大模型天梯榜）

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard/tree/main

Open LLM Leaderboard使用 Eleuther A I语言模型评估工具对模型进行了4个关键基准测试，这是一个统一的框架，用于在大量不同的评估任务上测试生成式语言模型。

AI2推理挑战（25-shot）- 一组小学科学问题。
HellaSwag（10-shot）- 这是一个常识推理测试，对人类来说很容易（约95%），但对SOTA模型来说具有挑战性。
MMLU（5-shot）- 这是一个测量文本模型多任务准确性的测试。该测试涵盖57个任务，包括初等数学、美国历史、计算机科学、法律等等。
TruthfulQA（0-shot）- 这是一个衡量模型倾向于复制在线常见谬误的测试。（注意：Harness中的TruthfulQA实际上是一个6-shots任务，在启动时即使将few-shot示例数量设置为0，也会自动添加6个示例。）

对于所有这些评估，得分越高越好。 Open LLM Leaderboard 选择了这些基准作为它们在0-shot和few-shot环境下涵盖了各种推理和广泛知识领域。

显卡选型推荐指南

GPU vs 显卡

GPU（图形处理单元）：计算机内部的硬件组件，用于处理图形和图像相关的任务。

主要功能：

处理图形渲染，包括游戏、视频和动画。
加速通用计算，如深度学习、科学模拟等。
高度并行处理，适用于大规模数据处理和处理密集型任务。

显卡：包含一个或多个GPU芯片的硬件设备，通常用于图形渲染和计算任务。主流显卡的显示芯片主要由NVIDIA（英伟达）和AMD（超威半导体）两大厂商制造，通常将采用NVIDIA显示芯片的显卡称为N卡，而将采用AMD显示芯片的显卡称为A卡。

主要作用：

将GPU集成到计算机中，通过接口（如PCIe）连接到主板。
提供图形输出接口，如HDMI、DisplayPort，使显示器能够显示图像。
可以有不同的物理尺寸和散热解决方案，适应各种计算机类型和用途。

GPU与显卡关系：

GPU是显卡的核心组件，决定了计算性能。
显卡则是将GPU与必要的接口、散热、电源管理等元件集成在一起的硬件设备。

GPU Core vs AMD CU

显卡虽然是一大块卡，但它真正执行运算的部分只是一枚和 CPU 一样大小的芯片——显卡核心；显卡 PCB 上其他组件，都是为它提供电源、通信、存储功能的。

这个小芯片承担着与 CPU 不同的定位和功能，芯片设计思路也完全不同。这就导致，我们谈论 GPU 时，所说的 Core，完全不是 CPU 上那个意思。

作为辅助 CPU 执行计算的周边器件，它不需要承担那些系统管理、调度的功能，完全专注于使用（大量的）小核心并行化地执行基础运算（通常都有数千个核心同时执行）。—— GPU Core 小而且多，这是我们的初步印象。

AMD 倾向于简化整个模型，用 CU 来讨论他们的显卡核心数量。Compute Unit 指的是一组执行运算的元件的集群（cluster），它里面有大量更小的计算单元。

由于技术路线和优势不同，AMD 更在乎自己的总线技术（例如 Infinity Cache）和集群结构，自然也倾向于以 CU 数量来讨论显卡性能。CU 不会具体对应到计算单元的数量，而只是跟缓存、总线结构有关。

CU 在概念上更接近 Nvidia 的 SM。所以千万不要拿 A 卡的 CU 与 N 卡的 CUDA Core 相比，是两个完全错位的概念。

CUDA Core

N 卡上，经常提到的概念是 CUDA Core。英伟达倾向于用最小的运算单元表示自己的运算能力，CUDA Core 指的是一个执行基础运算的处理元件。最早的时候，这个「基础组件」类似于 CPU 中负责各种数值计算的那个 core，能做很多通用运算

但后来就不一样了，例如整型计算和浮点型计算单元的数量不一样了。CUDA Core 不再能 1:1 地对应上这些小运算单元。它的定义就开始变化：有时2个 CUDA Core 才能凑出1个整型运算单元。

所以 CUDA Core 的定义其实是复杂而且变化的。你不能单纯用 CUDA Core 的数量来跨代际比较显卡性能（因为它在两代显卡中的定义都不同）。

由于 CUDA Core 根本就是为了方便商业营销而创造的概念，英伟达喜欢将其称为「用于营销目的」的核心。随着架构的更替，经过一代又一代的演变。

现在 Ampere 架构上所说的 CUDA Core（的数量），对应的其实是 FP32 计算单元（的数量）

Nvidia A100

Ampere 架构最强显卡 A100 的内部架构：

128 个 SM（Streaming Multiprocessor，流式多处理器），密密麻麻地排布在中间蓝色的 L2 Cache 两侧。

关注 SM 这个概念，它在 N 卡架构中非常重要，N 卡的多核并行化就是靠平行布置大量的 SM 来实现的。

流式多处理器内部结构

Tensor Core （这是判断GPU最重要的一个指标还有SM）

机器学习、神经网络的时代到来了。在这种应用场景下，矩阵运算的计算量非常大……那就干脆……再来个 Tensor Core，专门算矩阵

Tensor Core 有着专门设计的硬件结构，可以把整个矩阵都载入寄存器中批量运算，有十几倍的效率提升。这简直是机器学习神器——自 Volta 架构发布以来，奠定了 N 卡在机器学习领域的江湖地位。

Volta 以来的每一代架构，除了制程上的进步，Nvidia 也不遗余力地更新着他们的 Tensor Core：

N 卡架构变迁

显卡性能天梯榜

https://topic.expreview.com/GPU/

posted @ 2023-10-29 21:59 Crazymagic 阅读(215) 评论(0) 编辑收藏举报

刷新页面返回顶部

Crazymagic