使用llama.cpp部署Qwen2.5-7B-Instruct模型
这里选用Qwen2.5-7B-Instruct做例子,其他LLM类似。
VL用这个流程暂时还不行,不过我看到llama.cpp有在讨论这个问题,我验证了也是可行的,后面整理一下。
这里部署流程如下:
1. 在modelscope上将Qwen2.5-7B-Instruct下载下来。
2. 在ggerganov/llama.cpp: LLM inference in C/C++下载llama.cpp。
3. 编译llama.cpp,通常到目录下执行 mkdir build、cd build、cmake .. 、make -j8一套下来就可以,在./build/bin下会生成很多可执行文件。
4. 在llama.cpp工程下找到convert_hf_to_gguf.py,执行
python convert_hf_to_gguf.py ./model_path
model_path目录下会生成Qwen2.5-7B-Instruct-7.6B-F16.gguf文件。
5. (量化,可选)如果电脑性能不够,可以执行量化选项:
./llama-quantize ./model_path/Qwen2.5-7B-Instruct-7.6B-F16.gguf Qwen2.5-7B-Instruct-7.6B-Q4_K_M.gguf Q4_K
输出为Qwen2.5-7B-Instruct-7.6B-Q4_K_M.gguf文件。
量化有几种选项,Q4_K量化后基本能缩小到原模型的1/3,可以直接输入llama-quantize查看各种选项。
6. 最后使用该gguf文件:
./llama-cli -m Qwen2.5-7B-Instruct-7.6B-Q4_K_M.gguf -p "You are a helpful assistant" -cnv
后面根据提示就能对话了。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律