Gateway with Inference Extension-容器计算服务-阿里云

Gateway with Inference Extension组件是基于Kubernetes社区Gateway API及其Inference Extension规范实现的增强型组件，支持Kubernetes四层/七层路由服务，并提供面向大语言模型（LLM）推理场景的智能负载均衡能力。本文介绍Gateway with Inference Extension组件的信息、使用说明和变更记录。

组件信息

Gateway with Inference Extension组件基于Envoy Gateway项目构建，兼容Gateway API功能，集成了Gateway API提供的推理扩展。主要用于提供LLM推理服务的负载均衡和路由功能。

使用说明

Gateway with Inference Extension组件的安装和使用依赖于Gateway API组件提供的CRD，安装前请确保集群中已经安装Gateway API组件。具体操作，请参见安装组件。

变更记录

2025年05月

版本号	变更时间	变更内容	变更影响
v1.4.0-aliyun.1	2025年05月27日	支持Gateway API 1.3.0。推理扩展：支持vLLM、SGLang、TensorRT-LLM多种推理服务框架。支持前缀感知的负载均衡。支持基于模型名称的推理服务路由能力。支持推理请求排队与优先级调度能力。生成式AI请求可观测能力。支持全局限流。支持基于生成式AI请求Token的全局限流。支持添加Secret内容到指定请求Header。	旧版本升级会造成网关Pod重启，建议在业务低峰期进行。

2025年04月

版本号	变更时间	变更内容	变更影响
v1.3.0-aliyun.2	2025年05月7日	支持ACS集群。推理扩展增强：支持在HTTPRoute中引用InferencePool资源，并且同时支持了InferencePool级别的权重路由、流量镜像和熔断等能力。支持前缀感知的负载均衡。	旧版本升级会造成网关Pod重启，建议在业务低峰期进行。