基于GPU在本地部署llama.cpp

基于GPU在本地部署ggerganov/llama.cpp: LLM inference in C/C++ (github.com)

下载llama.cpp

git clone git@github.com:ggerganov/llama.cpp.git
cd llama.cpp

编译GPU环境的程序

我是基于cuda12.4工具包，用cmake进行编译。编译得到的程序保存在./build/bin/

mkdir build
cd build
cmake .. -DLLAMA_CUBLAS=ON
cmake --build . --config Release

运行和使用

运行bin文件中的main程序，首先需要从huggingface上下载GGUF格式的预训练模型。经过网络检索，我的RTX3060-12G的显卡，可以较快速处理7B 4Q大小的模型。于是我下载了llama-2-7b.Q4_0.gguf ，并将该模型保存在./models/llama-7b/ggml-model-q4_0.gguf中。

下面是运行的效果展示，注意，./main程序默认在CPU上运行，若要在GPU上运行，需要设置--n-gpu-layers N参数。

./main -m ../../models/llama-7b/ggml-model-q4_0.gguf -n -1 --color -r "User:" --in-prefix " " -i -p \
  'User: Hi
  AI: Hello. I am an AI chatbot. Would you like to talk?
  User: Sure!
  AI: What would you like to talk about?
  User:' --n-predict 512 --repeat-penalty 1.0 --n-gpu-layers 15000

GPU运行性能如下：

refs：

Running llama.cpp on Linux: A CPU and NVIDIA GPU Guide - Kubito

posted @ 2024-03-19 12:47 ckxkexing 阅读(2145) 评论(0) 编辑收藏举报

刷新页面返回顶部

ckxkexing

君子性非异也，善假于物也。追求极致的软件开发效能！

基于GPU在本地部署llama.cpp

下载llama.cpp

编译GPU环境的程序

运行和使用

refs：

公告

ckxkexing

君子性非异也，善假于物也。 追求极致的软件开发效能！

基于GPU在本地部署llama.cpp

下载llama.cpp

编译GPU环境的程序

运行和使用

refs：

公告

君子性非异也，善假于物也。追求极致的软件开发效能！