公告

View Post

DeepSeek-R1在本地部署离线使用基于本地部署DeepSeek+VSCode+Cline编写代码

DeepSeek-R1在本地部署离线使用

最近DeepSeek大火，人工智能未来将对工作生活带来很大的改变。

除了在服务器上部署外，我想在本地笔记本上部署一个，当遇到离线环境的时候，依然可以使用人工智能辅助。

本地部署很简答，一条命令就可以了，下面是部署和测试验证的一些要点记录。

由于服务器资源不够了，只能在其中开一个虚拟机测试，虚拟机的配置为16核，采用RockyLinux9.5版本。

部署结果：

测试截图：

1.安装准备

了解模型的大小

DeepSeek-R1 模型参数：671B（6710亿），模型大小：约720G。

DeepSeek-R1-Distill-Qwen-1.5B 模型参数1.5B（15亿），模型大小：约4G

DeepSeek-R1-Distill-Qwen-7B模型参数7B （70亿），模型大小：约15G

DeepSeek-R1-Distill-Llama-8B模型参数8B（80亿），模型大小：约16G

DeepSeek-R1-Distill-Qwen-14B模型参数14B（140亿），模型大小：约30G

DeepSeek-R1-Distill-Qwen-32B模型参数32B（320亿），模型大小：约75G

DeepSeek-R1-Distill-Llama-70B模型参数70B（70亿），模型大小：约140G

这些模型的原始大小如上所示，其中DeepSeek-R1和DeepSeek-R1-Distill-Llama-70B显然不适合在个人电脑上部署，而其余五个模型则完全可以在个人电脑上进行部署。模型运行框架的选择

目前市面上有许多开源模型框架可供选择，但大多数框架主要面向企业级部署，通常通过各种模型加速技术提升性能。

DeepSeek-R1官方推荐的几款框架包括：vLLM、SGLang、TensorRT-LLM等。

Ollama是一个开源框架，专为简化在本地机器上部署和运行大型语言模型（LLM）而设计。

特点如下：

易于使用：提供简洁的命令行界面和类似OpenAI的API，便于用户轻松管理和运行大型语言模型。

跨平台支持：支持MacOS、Linux和Windows（预览版）系统，并提供Docker镜像，方便在不同环境下部署。

模型管理：支持多种大型语言模型，如Llama、Mistral等，用户可从模型仓库下载或自行导入模型。

资源高效：优化资源占用，支持GPU加速，提升模型运行效率。

可扩展性：支持同时加载多个模型和处理多个请求，可与Web界面结合使用，方便构建应用程序。

Ollama的另一个显著优势是，它原生支持DeepSeek-R1的所有模型。同时，Ollama通过量化技术和剪枝技术对DeepSeek-R1的模型进行了优化，显著减小了模型的体积，从而更加适合个人部署使用。

Ollama下载和安装：

https://ollama.com/download/windows

DeepSeek-R1模型选择：

https://ollama.com/library/deepseek-r1:8b

2.安装结果

如下图：

3.测试验证

代码测试

诗词测试：

其他參考：

DeepSeek-R1个人和企业本地快速部署手册：https://mp.weixin.qq.com/s/T01TfZsUQnu0S7_2Vc_gWQ

手把手教你部署 DeepSeek 本地模型：https://www.cnblogs.com/jyzhao/p/18700202/shou-ba-shou-jiao-ni-bu-shu-deepseek-ben-de-mo-xin

我们曾如此渴望命运的波澜，到最后才发现：人生最曼妙的风景，竟是内心的淡定与从容……

部署 DeepSeek 本地模型，并通过 Ollama 提供 API 支持，Chatbox 提供 UI 界面。
原则：不搞那些高深的玩法，让小白也能理解并真正的上手实践。

1.下载Ollama并安装运行DeepSeek
2.下载Chatbox并配置为本地DeepSeek
3.无需联网也能和DeepSeek畅快聊天

1.下载Ollama并安装运行DeepSeek

从Ollama官方网站下载Ollama：

https://ollama.com/

进入Ollama官方网站后，可以看到Ollama已经支持DeepSeek-R1的部署：

点击DeepSeek-R1的链接可以看到有关deepseek-r1的详细介绍：

目前deepseek-r1模型大小提供了7个选择：1.5b、7b、8b、14b、32b、70b、671b。
因为我笔记本的显卡配置较低，所以这里只能选择最小的1.5b模型来做演示：

config
你可以根据你的硬件情况选择，通常模型大小（参数量）越大，模型的理解和生成能力越强，但也会消耗更多的计算资源。

点击Download按钮下载符合自己平台的Ollama：

我这里选择macOS，点击下载。
下载文件大小不到200M，文件名为：Ollama-darwin.zip。

解压后打开Ollama应用程序，提示：

点击Install安装ollama。

按照提示，打开终端，使用 Command + Space 快捷键调用 terminal：

这里Ollama默认给出的例子是下载/运行llama3.2大模型，
我们这里不使用这个llama3.2模型，直接下载/运行deepseek，参数选择最小的1.5b，在终端窗口运行下面命令：

ollama run deepseek-r1:1.5b

jingyuzhao@jingyuzhao-mac ~ % ollama run deepseek-r1:1.5b
pulling manifest 
pulling manifest 
pulling manifest 
pulling manifest 
pulling manifest 
pulling manifest 
pulling aabd4debf0c8... 100% ▕████████████████████████████████████████▏ 1.1 GB                         
pulling 369ca498f347... 100% ▕████████████████████████████████████████▏  387 B                         
pulling 6e4c38e1172f... 100% ▕████████████████████████████████████████▏ 1.1 KB                         
pulling f4d24e9138dd... 100% ▕████████████████████████████████████████▏  148 B                         
pulling a85fe2a2e58e... 100% ▕████████████████████████████████████████▏  487 B                         
verifying sha256 digest 
writing manifest 
success 
>>> Send a message (/? for help)

这里就直接可以和DeepSeek对话了：

>>> Hi! Who are you?
<think>

</think>

Hi! I'm DeepSeek-R1, an artificial intelligence assistant created by DeepSeek. I'm at your service 
and would be delighted to assist you with any inquiries or tasks you may have.

>>> 你好，你是谁？
<think>

</think>

你好！我是DeepSeek-R1，一个由深度求索公司开发的智能助手。我擅长通过思考来帮您解答复杂的数学，代码和
逻辑推理等理工类问题。 Feel free to ask me anything you'd like me to know! 

>>> Send a message (/? for help)

2.下载Chatbox并配置为本地DeepSeek

Chatbox官方网站：

https://chatboxai.app/en

我这里还是Intel-based的MAC，

下载的Chatbox-1.9.7.dmg，大小100M多点，点击安装，按下面提示拖到Applications内：

注意，这里我故意选错成DeepSeek API，这也是初学者经常会选错的，实际上，若选择这个你就找不到你本地的DeepSeek模型。

实际正确应该选择OLLAMA API，然后就可以看到我们上一步安装好的deepseek-r1:1.5b。

3.无需联网也能和DeepSeek畅快聊天

配置好DeepSeek本地模型之后，就可以实现在断网情况下自由问答了，比如，此刻我正在写这篇文章，于是就问他帮我想几个备选的标题：

我正在写一篇文章，我起的名字是“手把手教你部署 DeepSeek 本地模型”。请你帮我重新生成10个吸引眼球的标题供我选择。

他真的迅速给我起了10个吸引眼球的标题

DeepSeek-R1已经发布超过一周，我也第一时间发布了关于基于vLLM部署DeepSeek-R1以及DeepSeek-R1-Distill-Qwen-32B的相关文章。我的文章主要介绍了在构建企业RAG系统时，如何将DeepSeek-R1作为大模型模块进行部署，企业在业务发展中使用这一方案完全足够。

然而，我发现将AI集成到个人设备、甚至口袋的需求正在迅速增长。因此，除了编写DeepSeek-R1操作手册外，这几天我还深入探索了不同参数模型的部署方式，总结出一套适合个人与企业同时使用的部署方案。

关于基于DeepSeek-R1蒸馏的六款子模型是否适合个人部署，我特别关注了其中一些模型文件非常庞大的版本，比如DeepSeek-R1-Distill-Qwen-32B和DeepSeek-R1-Distill-Llama-70B。为此，我专门向DeepSeek进行了咨询。

我的提问是：个人部署DeepSeek-R1-Distill-Qwen-32B合适吗？如果你觉得合适，你能给出一个特别特别的原因吗？使用大白话回答DeepSeek的回答：合适！ 但有个特别特别简单的原因：这模型是个“学霸精简版”——就像你让一个考满分的学霸把课本重点全总结成小抄，虽然它脑子还是很大（32B参数），但运行起来比原版省劲，适合个人用电脑硬刚，勉强能跑起来！（当然，显卡最好是3090/4090级别，否则还是卡成PPT）行吧，那我们今天就来讲讲个人部署DeepSeek-R1蒸馏模型的操作方法。了解模型的大小DeepSeek-R1模型参数：671B（6710亿），模型大小：约720G。DeepSeek-R1-Distill-Qwen-1.5B模型参数1.5B（15亿），模型大小：约4GDeepSeek-R1-Distill-Qwen-7B模型参数7B （70亿），模型大小：约15GDeepSeek-R1-Distill-Llama-8B模型参数8B（80亿），模型大小：约16GDeepSeek-R1-Distill-Qwen-14B模型参数14B（140亿），模型大小：约30GDeepSeek-R1-Distill-Qwen-32B模型参数32B（320亿），模型大小：约75GDeepSeek-R1-Distill-Llama-70B模型参数70B（700亿），模型大小：约140G这些模型的原始大小如上所示，其中DeepSeek-R1和DeepSeek-R1-Distill-Llama-70B显然不适合在个人电脑上部署，而其余五个模型则完全可以在个人电脑上进行部署。模型运行框架的选择

目前市面上有许多开源模型框架可供选择，但大多数框架主要面向企业级部署，通常通过各种模型加速技术提升性能。

DeepSeek-R1官方推荐的几款框架包括：vLLM、SGLang、TensorRT-LLM等。

那么，是否有适合个人部署的框架呢？

Ollama是一个开源框架，专为简化在本地机器上部署和运行大型语言模型（LLM）而设计。

特点如下：

易于使用：提供简洁的命令行界面和类似OpenAI的API，便于用户轻松管理和运行大型语言模型。

跨平台支持：支持MacOS、Linux和Windows（预览版）系统，并提供Docker镜像，方便在不同环境下部署。

模型管理：支持多种大型语言模型，如Llama、Mistral等，用户可从模型仓库下载或自行导入模型。

资源高效：优化资源占用，支持GPU加速，提升模型运行效率。

可扩展性：支持同时加载多个模型和处理多个请求，可与Web界面结合使用，方便构建应用程序。

Ollama的另一个显著优势是，它原生支持DeepSeek-R1的所有模型。同时，Ollama通过量化技术对DeepSeek-R1的模型进行了优化，显著减小了模型的体积，从而更加适合个人部署使用。采用Ollama实现个人部署Winsows环境部署1、Ollama的下载与安装地址：https://ollama.com/download选择与自己操作系统兼容的Ollama应用进行安装，具体的安装步骤这里不再赘述。不过，需要注意的是，Ollama的安装盘最好有50GB以上的可用空间。2、DeepSeek-R1模型的选择地址：https://ollama.com/在官网主页可以看到DeepSeek-R1在醒目的位置，点击后就进入下载页面。在左侧的下拉列表中，可以选择不同参数的模型，并查看每个模型的大小，这些大小都是经过优化后的。例如：32B模型的大小为20GB。个人用户可以根据自己电脑的配置选择合适的模型进行部署。选择好模型后，点击右侧的“复制”按钮，即可复制下载模型和运行模型的命令。例如：选择7B模型，命令如下

ollama run deepseek-r1:7b

3、下载模型并运行搜索框中输入：cmd，打开命令提示符窗口，输入刚才拷贝的命令。模型下载完并运行后，就可以进行对话。使用Ollama部署时，32B模型使用3090、4090的卡都可以顺利完成部署。Linux环境部署1、Ollama的下载与安装地址：https://ollama.com/download/linux点击复制命令，到linux界面执行，安装Ollama。安装完毕后，执行以下命令：可以看到ollama的启动日志。

ollama serve

2、DeepSeek-R1模型的选择参考Windows环境部署中的模型选择，选择一个大模型，这里我们以32B为例，32B后复制命令。3、下载模型并运行执行以下命令：模型下载并运行。

ollama run deepseek-r1:32b

注：我这里已经下载安装过，所以执行命令后，直接就进入了聊天界面。我让它用李白的诗体为2025年除夕写一首诗，它经过思考，写了一首7言绝句，你觉得怎么样？

爆竹声中辞旧岁，

团圆饭后话桑麻。

春风拂面千家乐，

明月高悬照万家。

使用Open WebUI提升对话体验1、Open WebUI的下载与安装地址：https://github.com/open-webui/open-webui找到“If Ollama is on your computer, use this command:”提示语，并复制命令。注：我们采用Docker环境部署，环境请自行安装。将复制的命令，在一个新的命令提示符窗口下打开。安装完成后可以在Docker列表中看到Open WebUI的条目。2、Open WebUI+DeepSeek-R1Open WebUI地址：http://localhost:3000拷贝地址在浏览器中打开，或是点击Docker Open WebUI条目中红框圈住的部分。打开后的Open WebUI界面如下：点击“开始使用”，完成管理员账号的创建，就可以进入聊天界面。我让它谈以下对李白的看法，它思考一会，写了大概有1000多字，看来它十分喜欢李白，最后对李白的评价也是相当的好。个人部署DeepSeek-R1总结

个人在本地部署时，可以根据自己的电脑配置选择不同参数的模型。如果你的电脑配有GPU显卡，且显存约为22GB，可以选择32B模型。该模型在各项指标上可与ChatGPT-o1-mini相媲美，具备完整的思考与推理过程，除了性能与DeepSeek官网差一些，其它体验相差无几。

如果你有阿里云、百度云等提供GPU的云服务器，也可以选择在云端部署大型模型，并在个人电脑上安装Open WebUI配置云端模型，这样的使用体验将是最佳的，同时还能确保个人信息安全。

采用vLLM实现企业部署DeepSeek-R1的企业部署将在节后迎来高峰期，许多企业已经开始积极筹备。如果企业计划在节后更换现有的大模型部署，DeepSeek-R1是一个值得参考的选择。具体部署可以参考我之前写的部署文章：构建企业私有RAG大模型: DeepSeek-R1干翻OpenAI-o1-mini，开源部署走起(可商用)构建企业私有RAG大模型: (可商用)DeepSeek-V3开源部署，真的强吗？企业可以根据自身业务需求和成本考虑部署不同参数的DeepSeek-R1模型。通常，企业都会拥有自己的用户交互系统。DeepSeek-R1的不同模型启动后，会自动启用支持OpenAI协议的接口，企业可以直接通过标准的OpenAI API方式进行接入。执行以下命令：可以看到调用效果。

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{    "model": "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",    "messages": [        {"role": "system", "content": "You are DeepSeek-R1-7B. You are a helpful assistant."},        {"role": "user", "content": "请介绍一下你自己"}    ],    "temperature": 0.6,    "top_p": 0.8,    "repetition_penalty": 1.05,    "max_tokens": 512}'

模型回答：

{	"id": "chatcmpl-711471f00c9c40f6b4cdd66a9995d843",	"object": "chat.completion",	"created": 1738595207,	"model": "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",	"choices": [{		"index": 0,		"message": {			"role": "assistant",			"reasoning_content": null,			"content": "<think>\n您好！我是由中国的深度求索（DeepSeek）公司开发的智能助手DeepSeek-R1-7B。如您有任何任何问题，我会尽我所能为您提供帮助。\n</think>\n\n您好！我是由中国的深度求索（DeepSeek）公司开发的智能助手DeepSeek-R1-7B。如您有任何任何问题，我会尽我所能为您提供帮助。",			"tool_calls": []		},		"logprobs": null,		"finish_reason": "stop",		"stop_reason": null	}],	"usage": {		"prompt_tokens": 22,		"total_tokens": 103,		"completion_tokens": 81,		"prompt_tokens_details": null	},	"prompt_logprobs": null}

写在最后

DeepSeek-R1已经将AI大模型带入了寻常百姓家

基于本地部署DeepSeek+VSCode+Cline编写代码

前面的本地部署部分，我已经搭建好了。可以参考：https://www.cnblogs.com/haochuang/p/18700495

这里只是在本地基于模型搭建代码编写相关组件

使用deepseek-r1 + Vscode + Cline/Continue 构建本地代码编辑器

这个落地方案是实现本地代码编辑器，但是具体的效果见仁见智，prompt使用的好的话还是挺不错的。主要的好处就是本地搭建的大模型可以很好的保护隐私。本文提供了两种方案，一个是deepseek-r1 + Continue的方案，另一种是deepseek-r1 + Cline的方案。

1.deepseek-r1 + Vscode + Continue

在Vscode中下载 Continue插件

配置Continue
在config.json文件中，models中加入我们下载好的deepseek-r1模型，配置可以参考如下

{
"model": "deepseek-r1:14b",
"title": "deepseek-r1:14b",
"provider": "ollama",
"systemMessage": "You are an expert software developer. You give helpful and concise responses."
},
{
"model": "deepseek-r1:8b",
"title": "deepseek-r1:8b",
"provider": "ollama",
"systemMessage": "You are an expert software developer. You give helpful and concise responses."
}

然后可以在左侧的对话框中选择配置好的模型了。

最后测试一下，参考 Prompt 如下

**资深深度学习专家**：你是一名拥有10年深度学习开发经验的人工智能专家，并且专注于时序序列领域，尤其是股票预测方向。
 
### 目标
- 复现一个Transformer模型，并且能够通用的在时序序列数据上使用（主要是股票数据）。生成预测数据与真实对比的图像。
 
### 技能
- 擅长使用Vscode编程，使用python语言，并且能够进行代码调试。
- 擅长模型参数调试，知道如何调试模型并选取优秀的参数。
- 擅长本地环境搭建
 
### 工作流程
模型设计：
1. 设计Transformer模型组件Attention
2. 设计Transformer模型的encoder
3. 设计Transformer模型的decoder
4. 设计Transformer模型model
5. 上面提到的模型文件分别用.py文件存储，然后统一放在src下的models文件夹中
6. 模型参数：
- 嵌入维度：32,64
- 注意力头数：8,4
- 注意力层数：2,1
- 学习率：0.001,0.01
预处理：
1. 对于给定的数据（csv文件）进行预处理，删除字符和日期这类特征。
2. 将数据进行归一化，然后进行分批（batch）输入到模型中
3. 归一化提供Z-score标准化、Min-Max标准化或不使用标准化三种方法
4. 训练集和测试集比例为8：2，使用滑动窗口，默认使用7天预测下一天的数据
5. 数据放在src文件夹下的data文件夹中
 
模型训练：
1. 设计不同的参数进行训练
2. 设计模型训练，epoch为100-200
3. 使用Adam optimizer。
4. 早停条件，监控验证集损失，当连续若干epoch损失不再下降时停止训练。
5. 为模型设计中的参数设置不同组合，以寻找最佳配置
 
结果保存：
1. 绘图使用python的matplotlib库
2. 预测的值用橙色线画出，真实值用蓝色画出
3. 将不同的参数设置为图片名进行保存
4. 将最终的MSE、MAE、R2、MAPE的结果保存到csv中，上面指标为纵轴，横轴为模型中的参数。
5. 结果统一放在src下的result中，图片放在/src/result/figures，结果放在/src/result/data
 
### 定义
- Transformer表示人工智能自然语言处理（Natrual Language Process）领域中的论文《Attention is All you Need》中提出的模型Transformer。
 
### 约束条件
- 确保代码不用于非法金融活动，如操纵市场
- 主机配置：
1. cpu：amd r3-3100
2. gpu：RTX3060 8g
3. SYSTEM：win11
4. MEMORY: 16G
 
### 描述
 
### 输出格式
1. 首先生成模型的目录结构
2. 然后生成对应的模型文件
3. 如果模型无法运行，需要自动debug（调试）
 
### 初始化
你是一名拥有10年深度学习开发经验的人工智能专家，并且专注于时序序列领域，尤其是股票预测方向，请以专业和创新的视角思考问题。

由于输出太长了，仅展示部分输出。

2.deepseek-r1 + Vscode + Cline

首先是安装Cline插件

配置信息可以参考

API选择 Ollama，指令这里我只设了一个简单的“使用中文回答问题”。
使用Prompt和Continue测试的Prompt一致，部分结果展示如下

这方面最近大神们写了很多文章，也可以参考如下：

摘自：https://blog.csdn.net/weixin_44555174/article/details/145359573

参考：https://cloud.tencent.com/developer/article/2492324

模型配置：https://www.163.com/dy/article/JNE0IDB80519EA27.html

使用技巧：https://blog.csdn.net/datawhale/article/details/145384882

使用技巧：https://www.cnblogs.com/tangshiye/p/18696818

deepseek V3 和 R1 的区别：https://cloud.tencent.com/developer/article/2493335

posted on 2025-02-15 10:45 雇的辣客阅读(1911) 评论(0) 收藏举报

刷新页面返回顶部