如何在服务器上通过ollama部署本地大模型
如何在服务器上通过ollama部署本地大模型
第一步:下载离线的ollama安装包
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
第二步:加压安装包到指定的目录
sudo tar -C /usr -xzf ollama-linux-amd64.tgz
第三步:注册服务
vim /etc/systemd/system/ollama.service
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/bin/ollama serve
User=root
Group=root
Restart=always
RestartSec=3
# 下面的环境变量标识对外暴漏服务,否则的话ollama默认只能在本地调用
Environment="OLLAMA_HOST=0.0.0.0"
[Install]
WantedBy=default.target
systemctl start ollama 启动
systemctl stop ollama 关闭
第五步:下载大模型
可以直接 ollama run qwen2.5 来下载运行大模型,具体会下载几b的 参考官网 https://ollama.com/library/qwen2.5
后面的是离线下载qwen2.5-7b为例
由于我没有gpu服务,所以下载gguf格式的大模型
在huggingface上下载模型
一般来说大模型文件会比较大,在网上会被分片存储
上图就是两个文件,下面就要进行模型文件合并
下载llama.cpp
https://github.com/ggerganov/llama.cpp/releases
我下载的是llama-b3906-bin-win-vulkan-x64版本
然后进到解压包里面使用命令进行合并
···
./llama-gguf-split.exe --merge ../qwen2.5-7b-instruct-q4_k_m-00001-of-00002.gguf ../qwen2.5-7b-instruct-q4_k_m.gguf
···
合并之后就是一个完整的大模型文件了,然后上传到linux服务器上
在linux服务器上创建模型文件
vim Modelfile
FROM ./vicuna-33b.Q4_0.gguf
ollama create 模型名称 -f Modelfile
使用 ollama run 模型名称 即可启动对应的模型