03 2024 档案

摘要:vLLM是一个开源的大模型推理加速框架,通过PagedAttention高效地管理attention中缓存的张量,实现了比HuggingFace Transformers高14-24倍的吞吐量,就像在操作系统中管理CPU虚拟内存一样 NVIDIA FasterTransformer (FT) 是一个 阅读全文
posted @ 2024-03-20 11:20 muzinan110 编辑
摘要:思路 目前大模型推理加速技术栈大体可以分成三层(从低到高): 线性代数计算库,cuBLAS、Eigen、Intel MKL、ARM Compute Library等,其中定义了矩阵乘法、矩阵和向量乘法等数十个标准函数。线性代数层的加速主要依赖以下优化: GPU多核计算能力:通过调用CUDA、Open 阅读全文
posted @ 2024-03-02 10:26 muzinan110 编辑
摘要:思路 对于模型的每10亿个参数,需要6GB的内存(使用16位半精度)来加载和训练模型。请记住,内存大小只是训练故事的一部分。完成预训练所需的时间也是另一个重要部分。举个例子,最小的 Llama2 模型(Llama2 7B)具有70亿个参数,它花费了184320 GPU 小时才完成训练。 首先要弄清楚 阅读全文
posted @ 2024-03-02 10:20 muzinan110 编辑
摘要:前言 LLM 不管是 GPT 还是 BERT,有且只有一个核心功能,就是预测你给定的语句的下一个词最有可能是什么(靠Prompt激发),除此之外的工作,比如解析 PDF、比如对话式搜索、甚至拿过来一个大任务分解、创建子任务,最终完成,都需要有一整套的工具来把核心功能包装,便于开发人员搭积木,这个工具 阅读全文
posted @ 2024-03-02 10:14 muzinan110 编辑
摘要:在OpenAI的GPT,Meta的Llama和Google的BERT等大型语言模型(LLM)发布之后,它们可以生成类似人类的文本,理解上下文并执行广泛的自然语言处理(NLP)任务。LLM将彻底改变我们构建和维护人工智能系统和产品的方式。因此,一种被称为“LLMOps”的新方法已经发展并成为每个AI 阅读全文
posted @ 2024-03-02 10:09 muzinan110 阅读(80) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示