全局上下文缓存(Global Context Cache)通过构建全局共享的分布式KV存储,实现多级池化缓存控制系统,显著提升长上下文的推理性能。本文介绍如何在PAI-EAS中配置和使用全局上下文缓存功能。
功能概述
全局上下文缓存适用于多轮对话、代码生成、长文档分析等场景,通过缓存历史对话、代码片段、文档内容等固定前缀,加速后续推理。该功能具有以下核心价值:
降低计算开销:避免重复计算,节省GPU资源。
减少响应延迟:复用缓存结果,降低首token延迟。
提升资源利用率:多级池化缓存,支持更多并发请求。
工作原理
全局上下文缓存是一个多级缓存系统,其核心组件包括:LLM 智能路由、推理实例(Pod)内的多级缓存(GPU/CPU)以及用于存储缓存元数据的共享 Redis 实例。其工作流程如下:
用户的请求首先到达 LLM 智能路由。
智能路由根据请求的特征,并结合 Redis 中的元数据,执行 cache-aware 请求调度,将请求优先发往一个推理实例。
推理实例(Pod)收到请求后,开始在内部进行多级缓存查询。
Pod 内 GPU 缓存:首先查询当前 Pod 的 GPU 显存,此级别访问速度最快。
Redis 元数据:若GPU缓存未命中,则查询共享的 Redis 实例。若Redis中存在元数据,则根据查询结果从本地CPU缓存或者远端Pod拉取。
缓存未命中(Cache Miss):若Redis中未找到,则服务会处理完整的 Prompt,并在推理过程中生成新的 KV Cache,然后根据策略存入缓存系统以供后续使用。
说明:
缓存策略:缓存按照LRU(Least Recently Used)原则设计,自动淘汰最久未使用的缓存。
缓存有效期:不设置TTL(Time To Live),缓存持久有效。
尽力而为:全局上下文缓存是“尽力而为”机制,不保证一定缓存命中。
使用限制
需通过场景化部署的LLM大语言模型部署来使用全局上下文缓存,且满足以下条件:
资源类型:仅支持灵骏智算资源。
推理引擎:仅支持vLLM引擎。
模型架构:仅支持Qwen等MHA(Multi-Head Attention)模型。
配置与使用
本节旨在帮助您在 5 分钟内快速部署一个启用了全局上下文缓存的 LLM 服务,并体验其核心价值。
登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS。
在推理服务页签,单击部署服务,然后在场景化模型部署区域,单击LLM大语言模型部署。
在部署配置页面,选择公共模型(如Qwen3-8B)和部署模板(如单机),推理引擎选择vLLM,然后开启全局上下文缓存。

开启全局上下文缓存后会出现3个子服务(LLM推理服务、LLM智能路由、Redis实例)的配置页签。
重要在配置LLM推理服务时,需注意:
部署资源:必须使用灵骏智算资源。
上下文缓存容量:用于存储KV Cache的内存大小。请务必预留充足的内存供模型推理使用。若预留给推理的内存不足,可能导致服务启动失败或推理中断。
在网络信息区域进行专有网络配置。
完成全部配置后单击部署。
使用建议
为了提高缓存命中率,建议采用以下最佳实践:
优化Prompt结构
将大量且常见的内容(如系统提示、角色设定)放在Prompt的开头
保持公共前缀的稳定性,避免频繁变更
请求模式优化
尽量在短时间内发送具有相似前缀的请求
对于批量处理场景,按前缀相似度排序请求