ollama 的一些参数简单说明

ollama 提供了不少配置可以方便我们进行ollama 服务的调整，比如访问端口（默认127.0.0.1）,模型内存管理。。。
以下简单说明下访问以及模型内存管理的

完整配置信息

可以通过golang 代码查看，主要定义在envconfig/config.go 中

默认配置

func AsMap() map[string]EnvVar {

    return map[string]EnvVar{

        "OLLAMA_DEBUG":             {"OLLAMA_DEBUG", Debug, "Show additional debug information (e.g. OLLAMA_DEBUG=1)"},

        "OLLAMA_FLASH_ATTENTION":   {"OLLAMA_FLASH_ATTENTION", FlashAttention, "Enabled flash attention"},

        "OLLAMA_HOST":              {"OLLAMA_HOST", "", "IP Address for the ollama server (default 127.0.0.1:11434)"},

        "OLLAMA_KEEP_ALIVE":        {"OLLAMA_KEEP_ALIVE", KeepAlive, "The duration that models stay loaded in memory (default \"5m\")"},

        "OLLAMA_LLM_LIBRARY":       {"OLLAMA_LLM_LIBRARY", LLMLibrary, "Set LLM library to bypass autodetection"},

        "OLLAMA_MAX_LOADED_MODELS": {"OLLAMA_MAX_LOADED_MODELS", MaxRunners, "Maximum number of loaded models (default 1)"},

        "OLLAMA_MAX_QUEUE":         {"OLLAMA_MAX_QUEUE", MaxQueuedRequests, "Maximum number of queued requests"},

        "OLLAMA_MAX_VRAM":          {"OLLAMA_MAX_VRAM", MaxVRAM, "Maximum VRAM"},

        "OLLAMA_MODELS":            {"OLLAMA_MODELS", "", "The path to the models directory"},

        "OLLAMA_NOHISTORY":         {"OLLAMA_NOHISTORY", NoHistory, "Do not preserve readline history"},

        "OLLAMA_NOPRUNE":           {"OLLAMA_NOPRUNE", NoPrune, "Do not prune model blobs on startup"},

        "OLLAMA_NUM_PARALLEL":      {"OLLAMA_NUM_PARALLEL", NumParallel, "Maximum number of parallel requests (default 1)"},

        "OLLAMA_ORIGINS":           {"OLLAMA_ORIGINS", AllowOrigins, "A comma separated list of allowed origins"},

        "OLLAMA_RUNNERS_DIR":       {"OLLAMA_RUNNERS_DIR", RunnersDir, "Location for runners"},

        "OLLAMA_TMPDIR":            {"OLLAMA_TMPDIR", TmpDir, "Location for temporary files"},

    }

}

一些配置调整

默认ollama 提供的api 服务是本地的，其他访问不方便，解决方法很有，包含了直接通过配置修改以及基于nginx proxy 的

配置默认的

[Service]

Environment="OLLAMA_HOST=0.0.0.0"

模型内存
加载模型到内存中，模型到内存中有利于快速推理，api 配置模式

curl http://localhost:11434/api/generate -d '{"model": "llama3", "keep_alive": -1}'

OLLAMA_KEEP_ALIVE 也是一个参数

[Service]

Environment="OLLAMA_KEEP_ALIVE=-1"

队列配置
OLLAMA_MAX_QUEUE 环境变量

[Service]

Environment="OLLAMA_MAX_QUEUE=1000"

说明

了解一些配置还是比较有用的，可以更好的进行资源使用以及调优处理

参考资料

https://github.com/ollama/ollama/blob/main/docs/api.md
https://github.com/ollama/ollama/blob/main/docs/faq.md
https://github.com/ollama/ollama/blob/main/envconfig/config.go

posted on 2024-07-16 07:53 荣锋亮阅读(4677) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· ollama 模型离线加载的配置简单说明

· ollama gpu 集成测试qwen2 7b 模型

· Ollama系列---【常用属性设置】

· Ollama的常见问题解答(FAQ)

· LLM大模型部署实战指南：Ollama简化流程，OpenLLM灵活部署，LocalAI本地优化，Dify赋能应用开发

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· .NET10 - 预览版1新功能体验（一）

历史上的今天：
2022-07-16 dremio 当前支持的权限
2022-07-16 dremio 权限体系
2022-07-16 dremio udf 参考调用处理
2022-07-16 dremio 22 udf 功能
2022-07-16 dremio 的一些系统表
2022-07-16 dremio 22 odbc 新特性
2021-07-16 grafana 8.0 新的报警机制

rongfengliang-荣锋亮

ollama 的一些参数简单说明

完整配置信息

一些配置调整

说明

参考资料

导航

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (3865)

随笔档案 (4865)

文章分类 (205)

文章档案 (175)

.net 安全揭秘

DB

geohash 学习

graphql

IE 浏览器

IIS

IOT

open xml

REST 设计

sharepoint

sql server CLR

SSIS 学习

UML

vsto

web

Web service

windows 服务

插件开发

复杂事件处理

技术

类库

流量分析

敏捷

移动

运维

阅读排行榜

评论排行榜

推荐排行榜

最新评论