用Docker运行DeepSeek

用docker，运行ollama镜像，然后进入ollama容器拉取deepseek模型。运行其他大模型也类似。如下是docker compose file

version: '3.3'
services:
    ollama:
        image: 'ollama:ollama'
        environment:
          - NVIDIA_VISIBLE_DEVICES=all
        deploy:
          resources:
            reservations:
              devices:
              - driver: nvidia
                capabilities: [gpu]
        container_name: ollama
        volumes:
            - './data:/data'
        ports:
            - '11434:11434'

进入容器后可执行的命令。

# 拉模型速度取决于网速
ollama pull deepseek-r1:1.5b
# 运行模型，进入终端，退出终端命令：/exit
ollama run deepseek-r1:1.5b
# 列出模型
ollama list

用curl命令请求api获取解析结果

curl http://localhost:11434/api/generate -d'{ "model": "deepseek-r1:1.5b", "prompt": "给出一段文字描写春天", "stream": false }'

体验（只针对文字内容的处理）
本人在8核16G显卡的服务器上粗略测试了R1版本的1.5b、7b、8b、14b模型。如果只是对300字左右内容做分类或者提炼概述在几秒钟就可以得出结论。如果是在文字内容的基础上，询问逻辑问题，则可能需要10秒到大几十秒的时间而且可能不完全准确，而且模型越大越准确也越耗时间。
应用感想
其实deepseek的响应速度和逻辑推理已经满足很多不是特别复杂，实时性要求也不很高场景。比如：（1）内容分类或者内容鉴定；（2）一对一交流的场景。在实际应用中尽量让大模型判断具体的问题或者做具体的推理，避免做抽象的判断。比如给出一段需要文字需要判定的时候，提问“这段内容是否包含血腥暴力内容？”就会比提问“这段内容是否包含违规内容？”响应速度要快要准确。另外：我们在数据保存时，就应该对数据做大致分类，而不是完全交给大模型判断。比如我们或者很多商品评论的数据，如果知道单条评论是来自于食品、还是衣服还是化妆品那么再交给大模型分析时候，我们就可以让模型分析或者提取更具体的内容。