配置与使用全局上下文缓存-人工智能平台 PAI-阿里云

文档备案控制台

输入文档关键字查找

全局上下文缓存（Global Context Cache）通过构建全局共享的分布式KV存储，实现多级池化缓存控制系统，显著提升长上下文的推理性能。本文介绍如何在PAI-EAS中配置和使用全局上下文缓存功能。

功能概述

全局上下文缓存适用于多轮对话、代码生成、长文档分析等场景，通过缓存历史对话、代码片段、文档内容等固定前缀，加速后续推理。该功能具有以下核心价值：

降低计算开销：避免重复计算，节省GPU资源。
减少响应延迟：复用缓存结果，降低首token延迟。
提升资源利用率：多级池化缓存，支持更多并发请求。

工作原理

全局上下文缓存是一个多级缓存系统，其核心组件包括：LLM 智能路由、推理实例（Pod）内的多级缓存（GPU/CPU）以及用于存储缓存元数据的共享 Redis 实例。其工作流程如下：

用户的请求首先到达 LLM 智能路由。
智能路由根据请求的特征，并结合 Redis 中的元数据，执行 cache-aware 请求调度，将请求优先发往一个推理实例。
推理实例（Pod）收到请求后，开始在内部进行多级缓存查询。
1. Pod 内 GPU 缓存：首先查询当前 Pod 的 GPU 显存，此级别访问速度最快。
2. Redis 元数据：若GPU缓存未命中，则查询共享的 Redis 实例。若Redis中存在元数据，则根据查询结果从本地CPU缓存或者远端Pod拉取。
3. 缓存未命中（Cache Miss）：若Redis中未找到，则服务会处理完整的 Prompt，并在推理过程中生成新的 KV Cache，然后根据策略存入缓存系统以供后续使用。

说明：

缓存策略：缓存按照LRU（Least Recently Used）原则设计，自动淘汰最久未使用的缓存。
缓存有效期：不设置TTL（Time To Live），缓存持久有效。
尽力而为：全局上下文缓存是“尽力而为”机制，不保证一定缓存命中。

使用限制

需通过场景化部署的LLM大语言模型部署来使用全局上下文缓存，且满足以下条件：

资源类型：仅支持灵骏智算资源。
推理引擎：仅支持vLLM引擎。
模型架构：仅支持Qwen等MHA（Multi-Head Attention）模型。

配置与使用

本节旨在帮助您在 5 分钟内快速部署一个启用了全局上下文缓存的 LLM 服务，并体验其核心价值。

登录PAI控制台，在页面上方选择目标地域，并在右侧选择目标工作空间，然后单击进入EAS。
在推理服务页签，单击部署服务，然后在场景化模型部署区域，单击LLM大语言模型部署。
在部署配置页面，选择公共模型（如Qwen3-8B）和部署模板（如单机），推理引擎选择vLLM，然后开启全局上下文缓存。
开启全局上下文缓存后会出现3个子服务（LLM推理服务、LLM智能路由、Redis实例）的配置页签。
重要
在配置LLM推理服务时，需注意：
- 部署资源：必须使用灵骏智算资源。
- 上下文缓存容量：用于存储KV Cache的内存大小。请务必预留充足的内存供模型推理使用。若预留给推理的内存不足，可能导致服务启动失败或推理中断。
在网络信息区域进行专有网络配置。
完成全部配置后单击部署。

使用建议

为了提高缓存命中率，建议采用以下最佳实践：

优化Prompt结构
- 将大量且常见的内容（如系统提示、角色设定）放在Prompt的开头
- 保持公共前缀的稳定性，避免频繁变更
请求模式优化
- 尽量在短时间内发送具有相似前缀的请求
- 对于批量处理场景，按前缀相似度排序请求

上一篇：模型权重服务下一篇：服务调用

该文章对您有帮助吗？