本地部署大模型体验小记

本地部署大模型的工具

工具 优缺点
LM Studio 图形界面友好,支持API访问,参数配置灵活
Ollama GPU优化不足,CPU占用率高
Chatbox 易出现输入卡顿,交互体验待优化

Ollama 和 Chatbox 需要配合使用。

综合看更推荐使用 LM Studio 。

自定义模型

LM Studio 和 Ollama 除了使用默认的模型,还可以使用 HuggingFace 上的模型。

LM Studio 可以直接下载 gguf 格式的模型到模型文件夹。

Ollama 则可以通过如下步骤将 gguf 格式的模型导入到 Ollama 模型库中。

基本步骤如下:

  1. 准备GGUF模型文件
  2. 创建ModelFile
    FROM ./mistral-7b-instruct-v0.1.Q4_K_M.gguf
    PARAMETER num_ctx 4096
    
  3. 构建&运行模型
    ollama create example -f Modelfile
    ollama run example
    

模型大小选取公式

可以根据一下公式简单评估自己的电脑能够运行多大的模型。

快速响应条件:模型大小 < (VRAM - 2GB)
最佳表现条件:模型大小 ≈ (VRAM + 空闲RAM - 2GB)

注意实际电脑正常运行时可能就会占用部分内存,所以最佳表现条件值可能需要更小。

本地硬件配置

  • RAM:32GB
  • VRAM:12GB(RTX 3060)

运行情况

  • LM Studio 可运行 14B 模型,基本只有 GPU 负载;运行 32B 模型时,CPU和内存均满载(电脑正常运行本身就占用了20GB左右的内存)
  • Ollama 运行 14B 模型就会把 CPU 和内存占满,而 GPU 只利用到很小一部分

模型表现对比

根据提问 “狸花猫的品种有哪些”,对几个不同版本进行测试,发现

  • deepseek-r1 线上版本:回答逻辑性强,内容准确但略显干瘪
  • deepseek-r1-7b 本地部署:回答不够清晰,似是而非
  • kimi-联网:内容丰富,分类多样,但缺乏逻辑性

总的来说,本地部署的模型还是差点意思,有可能的话,还是使用线上模型更好。

参考链接

HuggingFace 各种模型都可以下载(下载速度可达 80MB/s)
OpenRouter 支持多模型同时提问
ChatGPT - Genie AI gpt前端,配置 API-KEY 后即可使用

相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
作者:唐衣可俊
出处:http://www.cnblogs.com/tangyikejun/
版权:本文版权归作者本人所有
转载:欢迎转载,但未经作者同意,必须保留此段声明;必须在文章中给出原文连接;否则必究法律责任
点击右上角即可分享
微信分享提示