ollama gpu 集成测试qwen2 7b 模型

昨天测试了下基于ollama cpu 模式运行的qwen2 对于小参数0.5b 以及1.5b 的速度还行，但是你的cpu 核数以及内存还是需要大一些
今天测试下基于gpu 的qwen2 7b 模型，以下简单说明下

安装ollama

如果我们申请的机器包含了GPU，ollama 的安装cli 还是比较方便的，会直接帮助我们进行gpu 驱动依赖的安装（包含了repo 源的添加）
还是很方便的，基本算是傻瓜式的

安装命令

curl -fsSL https://ollama.com/install.sh | sh

修改systemd 配置
因为默认ollama 监听的是本地端口，调整为全端口

[Unit]

Description=Ollama Service

After=network-online.target
 
[Service]

ExecStart=/usr/local/bin/ollama serve

User=ollama

Group=ollama

Restart=always

RestartSec=3

Environment="OLLAMA_HOST=0.0.0.0"

Environment="PATH=/root/.local/bin:/root/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin"
 
[Install]

WantedBy=default.target

启动服务&& 测试

启动ollama服务

systemctl start ollama

测试
下载模型，通过api

curl -X POST http://localhost:11434/api/pull -d '{"model":"qwen2"}'

访问测试，因为我使用的是如下配置的ECS，整体效果还是很不错的

GPU 监控信息

nvidia-smi

Mon Jun 10 07:18:52 2024

+-----------------------------------------------------------------------------------------+

| NVIDIA-SMI 555.42.02              Driver Version: 555.42.02      CUDA Version: 12.5     |

|-----------------------------------------+------------------------+----------------------+

| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |

| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |

|                                         |                        |               MIG M. |

|=========================================+========================+======================|

|   0  NVIDIA A10                     Off |   00000000:00:07.0 Off |                    0 |

|  0%   47C    P0             61W /  150W |    4885MiB /  23028MiB |      0%      Default |

|                                         |                        |                  N/A |

+-----------------------------------------+------------------------+----------------------+
 
+-----------------------------------------------------------------------------------------+

| Processes:                                                                              |

|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |

|        ID   ID                                                               Usage      |

|=========================================================================================|

|    0   N/A  N/A    114733      C   ...unners/cuda_v11/ollama_llama_server       4876MiB |

+-----------------------------------------------------------------------------------------+

ollama 进程信息

ollama    114586       1  1 07:06 ?        00:00:29 /usr/local/bin/ollama serve

ollama    116262  114586  3 07:37 ?        00:00:07 /tmp/ollama2821196712/runners/cuda_v11/ollama_llama_server --model /usr/share/ollama/.ollama/models/blobs/sha256-43f7a214e5329f672bb05404cfba1913cbb70fdaa1a17497224e1925046b0ed5 --ctx-size 2048 --batch-size 512 --embedding --log-disable --n-gpu-layers 29 --parallel 1 --port 37123

说明

基于ollama 的大模型部署还是很方便的，而且能提供openai 兼容的api 对于我们开发基于大模型的测试应用还是很方便的

参考资料

https://github.com/ollama/ollama/blob/main/docs/gpu.md
https://github.com/ollama/ollama/blob/main/docs/linux.md
https://github.com/ollama/ollama/releases/tag/v0.1.42
https://ollama.com/install.sh
https://ollama.com/library/qwen2

posted on 2024-06-10 08:24 荣锋亮阅读(856) 评论(0) 编辑收藏举报

刷新页面返回顶部

rongfengliang-荣锋亮

ollama gpu 集成测试qwen2 7b 模型

安装ollama

启动服务&& 测试

说明

参考资料

导航

公告