DeepSeek-R1在本地部署离线使用基于本地部署DeepSeek+VSCode+Cline编写代码
DeepSeek-R1在本地部署离线使用
最近DeepSeek大火,人工智能未来将对工作生活带来很大的改变。
除了在服务器上部署外,我想在本地笔记本上部署一个,当遇到离线环境的时候,依然可以使用人工智能辅助。
本地部署很简答, 一条命令就可以了,下面是部署和测试验证的一些要点记录。
由于服务器资源不够了,只能在其中开一个虚拟机测试,虚拟机的配置为16核,采用RockyLinux9.5版本。
部署结果:
测试截图:
1.安装准备
了解模型的大小
DeepSeek-R1 模型参数:671B(6710亿),模型大小:约720G。
DeepSeek-R1-Distill-Qwen-1.5B 模型参数1.5B(15亿),模型大小:约4G
DeepSeek-R1-Distill-Qwen-7B模型参数7B (70亿),模型大小:约15G
DeepSeek-R1-Distill-Llama-8B模型参数8B(80亿),模型大小:约16G
DeepSeek-R1-Distill-Qwen-14B模型参数14B(140亿),模型大小:约30G
DeepSeek-R1-Distill-Qwen-32B模型参数32B(320亿),模型大小:约75G
DeepSeek-R1-Distill-Llama-70B模型参数70B(70亿),模型大小:约140G
这些模型的原始大小如上所示,其中DeepSeek-R1和DeepSeek-R1-Distill-Llama-70B显然不适合在个人电脑上部署,而其余五个模型则完全可以在个人电脑上进行部署。模型运行框架的选择
目前市面上有许多开源模型框架可供选择,但大多数框架主要面向企业级部署,通常通过各种模型加速技术提升性能。
DeepSeek-R1官方推荐的几款框架包括:vLLM、SGLang、TensorRT-LLM等。
Ollama是一个开源框架,专为简化在本地机器上部署和运行大型语言模型(LLM)而设计。
特点如下:
易于使用:提供简洁的命令行界面和类似OpenAI的API,便于用户轻松管理和运行大型语言模型。
跨平台支持:支持MacOS、Linux和Windows(预览版)系统,并提供Docker镜像,方便在不同环境下部署。
模型管理:支持多种大型语言模型,如Llama、Mistral等,用户可从模型仓库下载或自行导入模型。
资源高效:优化资源占用,支持GPU加速,提升模型运行效率。
可扩展性:支持同时加载多个模型和处理多个请求,可与Web界面结合使用,方便构建应用程序。
Ollama的另一个显著优势是,它原生支持DeepSeek-R1的所有模型。同时,Ollama通过量化技术和剪枝技术对DeepSeek-R1的模型进行了优化,显著减小了模型的体积,从而更加适合个人部署使用。
Ollama下载和安装:
https://ollama.com/download/windows
DeepSeek-R1模型选择:
https://ollama.com/library/deepseek-r1:8b
2.安装结果
如下图:
3.测试验证
代码测试
诗词测试:
其他參考:
DeepSeek-R1个人和企业本地快速部署手册:https://mp.weixin.qq.com/s/T01TfZsUQnu0S7_2Vc_gWQ
我们曾如此渴望命运的波澜,到最后才发现:人生最曼妙的风景,竟是内心的淡定与从容……
部署 DeepSeek 本地模型,并通过 Ollama 提供 API 支持,Chatbox 提供 UI 界面。
原则:不搞那些高深的玩法,让小白也能理解并真正的上手实践。
- 1.下载Ollama并安装运行DeepSeek
- 2.下载Chatbox并配置为本地DeepSeek
- 3.无需联网也能和DeepSeek畅快聊天
1.下载Ollama并安装运行DeepSeek
从Ollama官方网站下载Ollama:
进入Ollama官方网站后,可以看到Ollama已经支持DeepSeek-R1的部署:
点击DeepSeek-R1
的链接可以看到有关deepseek-r1的详细介绍:
目前deepseek-r1模型大小提供了7个选择:1.5b、7b、8b、14b、32b、70b、671b。
因为我笔记本的显卡配置较低,所以这里只能选择最小的1.5b模型来做演示:
你可以根据你的硬件情况选择,通常模型大小(参数量)越大,模型的理解和生成能力越强,但也会消耗更多的计算资源。
点击Download
按钮下载符合自己平台的Ollama:
我这里选择macOS,点击下载。
下载文件大小不到200M,文件名为:Ollama-darwin.zip
。
解压后打开Ollama应用程序,提示:
点击Install
安装ollama。
按照提示,打开终端,使用 Command + Space 快捷键调用 terminal
:
这里Ollama默认给出的例子是下载/运行llama3.2大模型,
我们这里不使用这个llama3.2模型,直接下载/运行deepseek,参数选择最小的1.5b,在终端窗口运行下面命令:
ollama run deepseek-r1:1.5b
jingyuzhao@jingyuzhao-mac ~ % ollama run deepseek-r1:1.5b
pulling manifest
pulling manifest
pulling manifest
pulling manifest
pulling manifest
pulling manifest
pulling aabd4debf0c8... 100% ▕████████████████████████████████████████▏ 1.1 GB
pulling 369ca498f347... 100% ▕████████████████████████████████████████▏ 387 B
pulling 6e4c38e1172f... 100% ▕████████████████████████████████████████▏ 1.1 KB
pulling f4d24e9138dd... 100% ▕████████████████████████████████████████▏ 148 B
pulling a85fe2a2e58e... 100% ▕████████████████████████████████████████▏ 487 B
verifying sha256 digest
writing manifest
success
>>> Send a message (/? for help)
这里就直接可以和DeepSeek对话了:
>>> Hi! Who are you?
<think>
</think>
Hi! I'm DeepSeek-R1, an artificial intelligence assistant created by DeepSeek. I'm at your service
and would be delighted to assist you with any inquiries or tasks you may have.
>>> 你好,你是谁?
<think>
</think>
你好!我是DeepSeek-R1,一个由深度求索公司开发的智能助手。我擅长通过思考来帮您解答复杂的数学,代码和
逻辑推理等理工类问题。 Feel free to ask me anything you'd like me to know!
>>> Send a message (/? for help)
2.下载Chatbox并配置为本地DeepSeek
Chatbox官方网站:
我这里还是Intel-based的MAC,
下载的Chatbox-1.9.7.dmg
,大小100M多点,点击安装,按下面提示拖到Applications内:
注意,这里我故意选错成DeepSeek API,这也是初学者经常会选错的,实际上,若选择这个你就找不到你本地的DeepSeek模型。
实际正确应该选择OLLAMA API,然后就可以看到我们上一步安装好的deepseek-r1:1.5b
。
3.无需联网也能和DeepSeek畅快聊天
配置好DeepSeek本地模型之后,就可以实现在断网情况下自由问答了,比如,此刻我正在写这篇文章,于是就问他帮我想几个备选的标题:
我正在写一篇文章,我起的名字是“手把手教你部署 DeepSeek 本地模型”。请你帮我重新生成10个吸引眼球的标题供我选择。
他真的迅速给我起了10个吸引眼球的标题
DeepSeek-R1已经发布超过一周,我也第一时间发布了关于基于vLLM部署DeepSeek-R1以及DeepSeek-R1-Distill-Qwen-32B的相关文章。我的文章主要介绍了在构建企业RAG系统时,如何将DeepSeek-R1作为大模型模块进行部署,企业在业务发展中使用这一方案完全足够。
然而,我发现将AI集成到个人设备、甚至口袋的需求正在迅速增长。因此,除了编写DeepSeek-R1操作手册外,这几天我还深入探索了不同参数模型的部署方式,总结出一套适合个人与企业同时使用的部署方案。
关于基于DeepSeek-R1蒸馏的六款子模型是否适合个人部署,我特别关注了其中一些模型文件非常庞大的版本,比如DeepSeek-R1-Distill-Qwen-32B和DeepSeek-R1-Distill-Llama-70B。为此,我专门向DeepSeek进行了咨询。
我的提问是:个人部署DeepSeek-R1-Distill-Qwen-32B合适吗?如果你觉得合适,你能给出一个特别特别的原因吗?使用大白话回答DeepSeek的回答:合适! 但有个特别特别简单的原因:这模型是个“学霸精简版”——就像你让一个考满分的学霸把课本重点全总结成小抄,虽然它脑子还是很大(32B参数),但运行起来比原版省劲,适合个人用电脑硬刚,勉强能跑起来!(当然,显卡最好是3090/4090级别,否则还是卡成PPT)行吧,那我们今天就来讲讲个人部署DeepSeek-R1蒸馏模型的操作方法。了解模型的大小DeepSeek-R1模型参数:671B(6710亿),模型大小:约720G。DeepSeek-R1-Distill-Qwen-1.5B模型参数1.5B(15亿),模型大小:约4GDeepSeek-R1-Distill-Qwen-7B模型参数7B (70亿),模型大小:约15GDeepSeek-R1-Distill-Llama-8B模型参数8B(80亿),模型大小:约16GDeepSeek-R1-Distill-Qwen-14B模型参数14B(140亿),模型大小:约30GDeepSeek-R1-Distill-Qwen-32B模型参数32B(320亿),模型大小:约75GDeepSeek-R1-Distill-Llama-70B模型参数70B(700亿),模型大小:约140G这些模型的原始大小如上所示,其中DeepSeek-R1和DeepSeek-R1-Distill-Llama-70B显然不适合在个人电脑上部署,而其余五个模型则完全可以在个人电脑上进行部署。模型运行框架的选择
目前市面上有许多开源模型框架可供选择,但大多数框架主要面向企业级部署,通常通过各种模型加速技术提升性能。
DeepSeek-R1官方推荐的几款框架包括:vLLM、SGLang、TensorRT-LLM等。
那么,是否有适合个人部署的框架呢?
Ollama是一个开源框架,专为简化在本地机器上部署和运行大型语言模型(LLM)而设计。
特点如下:
易于使用:提供简洁的命令行界面和类似OpenAI的API,便于用户轻松管理和运行大型语言模型。
跨平台支持:支持MacOS、Linux和Windows(预览版)系统,并提供Docker镜像,方便在不同环境下部署。
模型管理:支持多种大型语言模型,如Llama、Mistral等,用户可从模型仓库下载或自行导入模型。
资源高效:优化资源占用,支持GPU加速,提升模型运行效率。
可扩展性:支持同时加载多个模型和处理多个请求,可与Web界面结合使用,方便构建应用程序。
Ollama的另一个显著优势是,它原生支持DeepSeek-R1的所有模型。同时,Ollama通过量化技术对DeepSeek-R1的模型进行了优化,显著减小了模型的体积,从而更加适合个人部署使用。采用Ollama实现个人部署Winsows环境部署1、Ollama的下载与安装地址:https://ollama.com/download选择与自己操作系统兼容的Ollama应用进行安装,具体的安装步骤这里不再赘述。不过,需要注意的是,Ollama的安装盘最好有50GB以上的可用空间。2、DeepSeek-R1模型的选择地址:https://ollama.com/
在官网主页可以看到DeepSeek-R1在醒目的位置,点击后就进入下载页面。
在左侧的下拉列表中,可以选择不同参数的模型,并查看每个模型的大小,这些大小都是经过优化后的。例如:32B模型的大小为20GB。个人用户可以根据自己电脑的配置选择合适的模型进行部署。选择好模型后,点击右侧的“复制”按钮,即可复制下载模型和运行模型的命令。例如:选择7B模型,命令如下
ollama run deepseek-r1:7b
3、下载模型并运行搜索框中输入:cmd,打开命令提示符窗口,输入刚才拷贝的命令。模型下载完并运行后,就可以进行对话。
使用Ollama部署时,32B模型使用3090、4090的卡都可以顺利完成部署。Linux环境部署1、Ollama的下载与安装地址:https://ollama.com/download/linux
点击复制命令,到linux界面执行,安装Ollama。
安装完毕后,执行以下命令:可以看到ollama的启动日志。
ollama serve
2、DeepSeek-R1模型的选择参考Windows环境部署中的模型选择,选择一个大模型,这里我们以32B为例,32B后复制命令。3、下载模型并运行执行以下命令:模型下载并运行。
ollama run deepseek-r1:32b
注:我这里已经下载安装过,所以执行命令后,直接就进入了聊天界面。
我让它用李白的诗体为2025年除夕写一首诗,它经过思考,写了一首7言绝句,你觉得怎么样?
爆竹声中辞旧岁,
团圆饭后话桑麻。
春风拂面千家乐,
明月高悬照万家。
使用Open WebUI提升对话体验1、Open WebUI的下载与安装地址:https://github.com/open-webui/open-webui找到“If Ollama is on your computer, use this command:”提示语,并复制命令。注:我们采用Docker环境部署,环境请自行安装。将复制的命令,在一个新的命令提示符窗口下打开。
安装完成后可以在Docker列表中看到Open WebUI的条目。
2、Open WebUI+DeepSeek-R1Open WebUI地址:http://localhost:3000拷贝地址在浏览器中打开,或是点击Docker Open WebUI条目中红框圈住的部分。
打开后的Open WebUI界面如下:
点击“开始使用”,完成管理员账号的创建,就可以进入聊天界面。
我让它谈以下对李白的看法,它思考一会,写了大概有1000多字,看来它十分喜欢李白
,最后对李白的评价也是相当的好。
个人部署DeepSeek-R1总结
个人在本地部署时,可以根据自己的电脑配置选择不同参数的模型。如果你的电脑配有GPU显卡,且显存约为22GB,可以选择32B模型。该模型在各项指标上可与ChatGPT-o1-mini相媲美,具备完整的思考与推理过程,除了性能与DeepSeek官网差一些,其它体验相差无几。
如果你有阿里云、百度云等提供GPU的云服务器,也可以选择在云端部署大型模型,并在个人电脑上安装Open WebUI配置云端模型,这样的使用体验将是最佳的,同时还能确保个人信息安全。
采用vLLM实现企业部署DeepSeek-R1的企业部署将在节后迎来高峰期,许多企业已经开始积极筹备。如果企业计划在节后更换现有的大模型部署,DeepSeek-R1是一个值得参考的选择。具体部署可以参考我之前写的部署文章:构建企业私有RAG大模型: DeepSeek-R1干翻OpenAI-o1-mini,开源部署走起(可商用)构建企业私有RAG大模型: (可商用)DeepSeek-V3开源部署,真的强吗?企业可以根据自身业务需求和成本考虑部署不同参数的DeepSeek-R1模型。通常,企业都会拥有自己的用户交互系统。DeepSeek-R1的不同模型启动后,会自动启用支持OpenAI协议的接口,企业可以直接通过标准的OpenAI API方式进行接入。执行以下命令:可以看到调用效果。
curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",
"messages": [
{"role": "system", "content": "You are DeepSeek-R1-7B. You are a helpful assistant."},
{"role": "user", "content": "请介绍一下你自己"}
],
"temperature": 0.6,
"top_p": 0.8,
"repetition_penalty": 1.05,
"max_tokens": 512
}'
模型回答:
{
"id": "chatcmpl-711471f00c9c40f6b4cdd66a9995d843",
"object": "chat.completion",
"created": 1738595207,
"model": "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",
"choices": [{
"index": 0,
"message": {
"role": "assistant",
"reasoning_content": null,
"content": "<think>\n您好!我是由中国的深度求索(DeepSeek)公司开发的智能助手DeepSeek-R1-7B。如您有任何任何问题,我会尽我所能为您提供帮助。\n</think>\n\n您好!我是由中国的深度求索(DeepSeek)公司开发的智能助手DeepSeek-R1-7B。如您有任何任何问题,我会尽我所能为您提供帮助。",
"tool_calls": []
},
"logprobs": null,
"finish_reason": "stop",
"stop_reason": null
}],
"usage": {
"prompt_tokens": 22,
"total_tokens": 103,
"completion_tokens": 81,
"prompt_tokens_details": null
},
"prompt_logprobs": null
}
写在最后
DeepSeek-R1已经将AI大模型带入了寻常百姓家
基于本地部署DeepSeek+VSCode+Cline编写代码
前面的本地部署部分,我已经搭建好了。可以参考:https://www.cnblogs.com/haochuang/p/18700495
这里只是在本地基于模型搭建代码编写相关组件
使用deepseek-r1 + Vscode + Cline/Continue 构建本地代码编辑器
这个落地方案是实现本地代码编辑器,但是具体的效果见仁见智,prompt使用的好的话还是挺不错的。主要的好处就是本地搭建的大模型可以很好的保护隐私。本文提供了两种方案,一个是deepseek-r1 + Continue的方案,另一种是deepseek-r1 + Cline的方案。
1.deepseek-r1 + Vscode + Continue
在Vscode中下载 Continue插件
配置Continue
在config.json文件中,models中加入我们下载好的deepseek-r1模型,配置可以参考如下
1
2
3
4
5
6
7
8
9
10
11
12
|
{ "model" : "deepseek-r1:14b" , "title" : "deepseek-r1:14b" , "provider" : "ollama" , "systemMessage" : "You are an expert software developer. You give helpful and concise responses." }, { "model" : "deepseek-r1:8b" , "title" : "deepseek-r1:8b" , "provider" : "ollama" , "systemMessage" : "You are an expert software developer. You give helpful and concise responses." } |
然后可以在左侧的对话框中选择配置好的模型了。
最后测试一下,参考 Prompt 如下
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
|
**资深深度学习专家**:你是一名拥有10年深度学习开发经验的人工智能专家,并且专注于时序序列领域,尤其是股票预测方向。 ### 目标 - 复现一个Transformer模型,并且能够通用的在时序序列数据上使用(主要是股票数据)。生成预测数据与真实对比的图像。 ### 技能 - 擅长使用Vscode编程,使用python语言,并且能够进行代码调试。 - 擅长模型参数调试,知道如何调试模型并选取优秀的参数。 - 擅长本地环境搭建 ### 工作流程 模型设计: 1. 设计Transformer模型组件Attention 2. 设计Transformer模型的encoder 3. 设计Transformer模型的decoder 4. 设计Transformer模型model 5. 上面提到的模型文件分别用.py文件存储,然后统一放在src下的models文件夹中 6. 模型参数: - 嵌入维度:32,64 - 注意力头数:8,4 - 注意力层数:2,1 - 学习率:0.001,0.01 预处理: 1. 对于给定的数据(csv文件)进行预处理,删除字符和日期这类特征。 2. 将数据进行归一化,然后进行分批(batch)输入到模型中 3. 归一化提供Z-score标准化、Min-Max标准化或不使用标准化三种方法 4. 训练集和测试集比例为8:2,使用滑动窗口,默认使用7天预测下一天的数据 5. 数据放在src文件夹下的data文件夹中 模型训练: 1. 设计不同的参数进行训练 2. 设计模型训练,epoch为100-200 3. 使用Adam optimizer。 4. 早停条件,监控验证集损失,当连续若干epoch损失不再下降时停止训练。 5. 为模型设计中的参数设置不同组合,以寻找最佳配置 结果保存: 1. 绘图使用python的matplotlib库 2. 预测的值用橙色线画出,真实值用蓝色画出 3. 将不同的参数设置为图片名进行保存 4. 将最终的MSE、MAE、R2、MAPE的结果保存到csv中,上面指标为纵轴,横轴为模型中的参数。 5. 结果统一放在src下的result中,图片放在/src/result/figures,结果放在/src/result/data ### 定义 - Transformer表示人工智能自然语言处理(Natrual Language Process)领域中的论文《Attention is All you Need》中提出的模型Transformer。 ### 约束条件 - 确保代码不用于非法金融活动,如操纵市场 - 主机配置: 1. cpu:amd r3-3100 2. gpu:RTX3060 8g 3. SYSTEM:win11 4. MEMORY: 16G ### 描述 ### 输出格式 1. 首先生成模型的目录结构 2. 然后生成对应的模型文件 3. 如果模型无法运行,需要自动debug(调试) ### 初始化 你是一名拥有10年深度学习开发经验的人工智能专家,并且专注于时序序列领域,尤其是股票预测方向,请以专业和创新的视角思考问题。 |
由于输出太长了,仅展示部分输出。
2.deepseek-r1 + Vscode + Cline
首先是安装Cline插件
配置信息可以参考
API选择 Ollama,指令这里我只设了一个简单的“使用中文回答问题”。
使用Prompt和Continue测试的Prompt一致,部分结果展示如下
这方面最近大神们写了很多文章,也可以参考如下:
摘自:https://blog.csdn.net/weixin_44555174/article/details/145359573
参考:https://cloud.tencent.com/developer/article/2492324
模型配置:https://www.163.com/dy/article/JNE0IDB80519EA27.html
使用技巧:https://blog.csdn.net/datawhale/article/details/145384882
使用技巧:https://www.cnblogs.com/tangshiye/p/18696818
deepseek V3 和 R1 的区别:https://cloud.tencent.com/developer/article/2493335
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 没有源码,如何修改代码逻辑?
· PowerShell开发游戏 · 打蜜蜂
· 在鹅厂做java开发是什么体验
· WPF到Web的无缝过渡:英雄联盟客户端的OpenSilver迁移实战