ollama gpu 集成测试qwen2 7b 模型

昨天测试了下基于ollama cpu 模式运行的qwen2 对于小参数0.5b 以及1.5b 的速度还行,但是你的cpu 核数以及内存还是需要大一些
今天测试下基于gpu 的qwen2 7b 模型,以下简单说明下

安装ollama

如果我们申请的机器包含了GPU,ollama 的安装cli 还是比较方便的,会直接帮助我们进行gpu 驱动依赖的安装(包含了repo 源的添加)
还是很方便的,基本算是傻瓜式的

  • 安装命令
curl -fsSL https://ollama.com/install.sh | sh
  • 修改systemd 配置
    因为默认ollama 监听的是本地端口,调整为全端口
[Unit]
Description=Ollama Service
After=network-online.target
 
[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0"
Environment="PATH=/root/.local/bin:/root/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin"
 
[Install]
WantedBy=default.target

启动服务&& 测试

  • 启动ollama服务
systemctl start ollama
  • 测试
    下载模型,通过api
curl -X POST http://localhost:11434/api/pull -d '{"model":"qwen2"}'

访问测试,因为我使用的是如下配置的ECS,整体效果还是很不错的

  • GPU 监控信息
nvidia-smi
Mon Jun 10 07:18:52 2024
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 555.42.02              Driver Version: 555.42.02      CUDA Version: 12.5     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA A10                     Off |   00000000:00:07.0 Off |                    0 |
|  0%   47C    P0             61W /  150W |    4885MiB /  23028MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
 
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A    114733      C   ...unners/cuda_v11/ollama_llama_server       4876MiB |
+-----------------------------------------------------------------------------------------+
  • ollama 进程信息
ollama    114586       1  1 07:06 ?        00:00:29 /usr/local/bin/ollama serve
ollama    116262  114586  3 07:37 ?        00:00:07 /tmp/ollama2821196712/runners/cuda_v11/ollama_llama_server --model /usr/share/ollama/.ollama/models/blobs/sha256-43f7a214e5329f672bb05404cfba1913cbb70fdaa1a17497224e1925046b0ed5 --ctx-size 2048 --batch-size 512 --embedding --log-disable --n-gpu-layers 29 --parallel 1 --port 37123

说明

基于ollama 的大模型部署还是很方便的,而且能提供openai 兼容的api 对于我们开发基于大模型的测试应用还是很方便的

参考资料

https://github.com/ollama/ollama/blob/main/docs/gpu.md
https://github.com/ollama/ollama/blob/main/docs/linux.md
https://github.com/ollama/ollama/releases/tag/v0.1.42
https://ollama.com/install.sh
https://ollama.com/library/qwen2

posted on 2024-06-10 08:24  荣锋亮  阅读(856)  评论(0编辑  收藏  举报

导航