Ollama 高阶配置，如何增加上下文窗口大小？-369IT编程

admin管理员组
文章数量:1036096

Ollama 高阶配置，如何增加上下文窗口大小？

使用Ollama部署大模型的时候，有几个注意事项要注意。Ollama默认的上下文窗口只有2K，多张显卡可能资源分配不均等问题，计算速度不够快。

我们先看一下Ollama可配置环境变量：

OLLAMA_DEBUG: 显示额外的调试信息（例如：OLLAMA_DEBUG=1）。
OLLAMA_HOST: Ollama 服务器的 IP 地址（默认值：127.0.0.1:11434）。
OLLAMA_KEEP_ALIVE: 模型在内存中保持加载的时长（默认值：“5m”）。
OLLAMA_MAX_LOADED_MODELS: 每个 GPU 上最大加载模型数量。
OLLAMA_MAX_QUEUE: 请求队列的最大长度。
OLLAMA_MODELS: 模型目录的路径。
OLLAMA_NUM_PARALLEL: 最大并行请求数。
OLLAMA_NOPRUNE: 启动时不修剪模型 blob。
OLLAMA_ORIGINS: 允许的源列表，使用逗号分隔。
OLLAMA_SCHED_SPREAD: 始终跨所有 GPU 调度模型。
OLLAMA_TMPDIR: 临时文件的位置。
OLLAMA_FLASH_ATTENTION: 启用 Flash Attention。
OLLAMA_LLM_LIBRARY: 设置 LLM 库以绕过自动检测。

1. 显卡资源使用不均横

设置环境变量OLLAMA_SCHED_SPREAD为1即可。

2. 加速计算

FlashAttention 是一种优化的注意力机制，用于加速深度学习模型中常见的自注意力计算，尤其是在Transformer架构中。它通过改进内存访问模式和计算策略，显著提高了计算效率和内存使用率。

我们可以通过设置环境变量OLLAMA_FLASH_ATTENTION为1，开启改选项。

增加上下文窗口

假设你从Ollama上拉取了大模型，其默认的窗口大小只有2048。我们可以通过如下方法，提高上下文窗口。

代码语言：javascript代码运行次数：0运行复制

ollama show --modelfile qwen2:72b > Modelfile

我们看一下生成的Modelfile。

代码语言：javascript代码运行次数：0运行复制

# Modelfile generated by "ollama show"
# To build a new Modelfile based on this, replace FROM with:
# FROM qwen2:72b

FROM C:\Users\Administrator\.ollama\models\blobs\sha256-f6ac28d6f58ae1522734d1df834e6166e0813bb1919e86aafb4c0551eb4ce2bb
TEMPLATE "{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ .Response }}<|im_end|>
"
PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>
LICENSE """Tongyi Qianwen LICENSE AGREEMENT

Tongyi Qianwen Release Date: August 3, 2023
....
"""

然后在PARAMETER处增加如下配置，32768就是上下文窗口大小，设置成你想要的即可。

注意增加上下文窗口可能增加显存的使用，谨慎增加。

代码语言：javascript代码运行次数：0运行复制

PARAMETER num_ctx 32768

然后创建新模型即可

代码语言：javascript代码运行次数：0运行复制

ollama create qwen2:72b-32k -f Modelfile

接下来，你就可以使用运行具有更高上下文的模型了。

代码语言：javascript代码运行次数：0运行复制

ollama run qwen2:72b-32k

在使用OpenAI接口调用时候，模型的名称也要改成qwen2:72b-32k。

支持的并发请求数量

可以考虑配置OLLAMA_NUM_PARALLEL，默认一般是4或者1。它会相应的增加上下文，比如一个请求2048 Tokens。如果是4个并行，那么就会消耗4*2048的上下文窗口。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2024-08-29，如有侵权请联系 cloudcommunity@tencent 删除优化架构模型内存配置

Ollama 高阶配置，如何增加上下文窗口大小？

使用Ollama部署大模型的时候，有几个注意事项要注意。Ollama默认的上下文窗口只有2K，多张显卡可能资源分配不均等问题，计算速度不够快。

我们先看一下Ollama可配置环境变量：

OLLAMA_DEBUG: 显示额外的调试信息（例如：OLLAMA_DEBUG=1）。
OLLAMA_HOST: Ollama 服务器的 IP 地址（默认值：127.0.0.1:11434）。
OLLAMA_KEEP_ALIVE: 模型在内存中保持加载的时长（默认值：“5m”）。
OLLAMA_MAX_LOADED_MODELS: 每个 GPU 上最大加载模型数量。
OLLAMA_MAX_QUEUE: 请求队列的最大长度。
OLLAMA_MODELS: 模型目录的路径。
OLLAMA_NUM_PARALLEL: 最大并行请求数。
OLLAMA_NOPRUNE: 启动时不修剪模型 blob。
OLLAMA_ORIGINS: 允许的源列表，使用逗号分隔。
OLLAMA_SCHED_SPREAD: 始终跨所有 GPU 调度模型。
OLLAMA_TMPDIR: 临时文件的位置。
OLLAMA_FLASH_ATTENTION: 启用 Flash Attention。
OLLAMA_LLM_LIBRARY: 设置 LLM 库以绕过自动检测。

1. 显卡资源使用不均横

设置环境变量OLLAMA_SCHED_SPREAD为1即可。

2. 加速计算

我们可以通过设置环境变量OLLAMA_FLASH_ATTENTION为1，开启改选项。

增加上下文窗口

假设你从Ollama上拉取了大模型，其默认的窗口大小只有2048。我们可以通过如下方法，提高上下文窗口。

代码语言：javascript代码运行次数：0运行复制

ollama show --modelfile qwen2:72b > Modelfile

我们看一下生成的Modelfile。

代码语言：javascript代码运行次数：0运行复制

# Modelfile generated by "ollama show"
# To build a new Modelfile based on this, replace FROM with:
# FROM qwen2:72b

FROM C:\Users\Administrator\.ollama\models\blobs\sha256-f6ac28d6f58ae1522734d1df834e6166e0813bb1919e86aafb4c0551eb4ce2bb
TEMPLATE "{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ .Response }}<|im_end|>
"
PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>
LICENSE """Tongyi Qianwen LICENSE AGREEMENT

Tongyi Qianwen Release Date: August 3, 2023
....
"""

然后在PARAMETER处增加如下配置，32768就是上下文窗口大小，设置成你想要的即可。

注意增加上下文窗口可能增加显存的使用，谨慎增加。

代码语言：javascript代码运行次数：0运行复制

PARAMETER num_ctx 32768

然后创建新模型即可

代码语言：javascript代码运行次数：0运行复制

ollama create qwen2:72b-32k -f Modelfile

接下来，你就可以使用运行具有更高上下文的模型了。

代码语言：javascript代码运行次数：0运行复制

ollama run qwen2:72b-32k

在使用OpenAI接口调用时候，模型的名称也要改成qwen2:72b-32k。

支持的并发请求数量

可以考虑配置OLLAMA_NUM_PARALLEL，默认一般是4或者1。它会相应的增加上下文，比如一个请求2048 Tokens。如果是4个并行，那么就会消耗4*2048的上下文窗口。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2024-08-29，如有侵权请联系 cloudcommunity@tencent 删除优化架构模型内存配置

本文标签： Ollama 高阶配置，如何增加上下文窗口大小

版权声明：本文标题：Ollama 高阶配置，如何增加上下文窗口大小？内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1748224618a2271866.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

Ollama 高阶配置，如何增加上下文窗口大小？

Ollama 高阶配置，如何增加上下文窗口大小？

1. 显卡资源使用不均横

2. 加速计算

增加上下文窗口

支持的并发请求数量

Ollama 高阶配置，如何增加上下文窗口大小？

1. 显卡资源使用不均横

2. 加速计算

增加上下文窗口

支持的并发请求数量

更多相关文章

Ollama 高阶配置，如何增加上下文窗口大小？

发表评论

推荐文章

基于Python+Vue开发的房产销售管理系统源码+运行

什么是监视器

WCH:CH340

【数据结构】C语言实现树和森林的遍历

评估与优化RAG指南：提高准确性与质量的最佳实践

热门文章

AI口语测评APP的开发

Git问题：git add . 时出现warning: LF will be replaced by CRLF in ...... 解决办法

CAN信号质量评估的专业解析

Text completion

为什么数值分析的最小二乘拟合曲线与数理统计中的最小二乘估计曲线不同

php 获取url地址中的一级域名顶级域名的方法

JQuery 实现带倒计时的按钮代码

鲲鹏服务器系统重装,鲲鹏服务器运行windows系统

AI 是开发者的工具，而非替代者；不是对手，而是助手

反射2

最新文章

数据驱动增长：App 全渠道统计重构流量运营逻辑

centos 安装nginx

DeepSeek + 流程引擎：大模型如何提升流程引擎的能力

RAID10怎么创建？RAID10创建详细步骤

重学Java基础篇—Java Object类常用方法深度解析

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow