如何在服务器上通过ollama部署本地大模型

如何在服务器上通过ollama部署本地大模型

第一步:下载离线的ollama安装包

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz

第二步:加压安装包到指定的目录

sudo tar -C /usr -xzf ollama-linux-amd64.tgz

第三步:注册服务

vim /etc/systemd/system/ollama.service

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=root
Group=root
Restart=always
RestartSec=3
# 下面的环境变量标识对外暴漏服务,否则的话ollama默认只能在本地调用
Environment="OLLAMA_HOST=0.0.0.0"

[Install]
WantedBy=default.target

systemctl start ollama 启动
systemctl stop ollama 关闭

第五步:下载大模型

可以直接 ollama run qwen2.5 来下载运行大模型,具体会下载几b的 参考官网 https://ollama.com/library/qwen2.5

后面的是离线下载qwen2.5-7b为例
由于我没有gpu服务,所以下载gguf格式的大模型

在huggingface上下载模型

一般来说大模型文件会比较大,在网上会被分片存储
上图就是两个文件,下面就要进行模型文件合并

下载llama.cpp

https://github.com/ggerganov/llama.cpp/releases
我下载的是llama-b3906-bin-win-vulkan-x64版本
然后进到解压包里面使用命令进行合并
···
./llama-gguf-split.exe --merge ../qwen2.5-7b-instruct-q4_k_m-00001-of-00002.gguf ../qwen2.5-7b-instruct-q4_k_m.gguf
···
合并之后就是一个完整的大模型文件了,然后上传到linux服务器上

在linux服务器上创建模型文件
vim Modelfile
FROM ./vicuna-33b.Q4_0.gguf
ollama create 模型名称 -f Modelfile


使用 ollama run 模型名称 即可启动对应的模型

posted @ 2024-10-21 14:19  实习小生  阅读(309)  评论(0编辑  收藏  举报