Gateway with Inference Extension

Gateway with Inference Extension组件是基于Kubernetes社区Gateway API及其Inference Extension规范实现的增强型组件,支持Kubernetes四层/七层路由服务,并提供面向大语言模型(LLM)推理场景的智能负载均衡能力。本文介绍Gateway with Inference Extension组件的信息、使用说明和变更记录。

组件信息

Gateway with Inference Extension组件基于Envoy Gateway项目构建,兼容Gateway API功能,集成了Gateway API提供的推理扩展。主要用于提供LLM推理服务的负载均衡和路由功能。

使用说明

Gateway with Inference Extension组件的安装和使用依赖于Gateway API组件提供的CRD,安装前请确保集群中已经安装Gateway API组件。具体操作,请参见安装组件

变更记录

202505

说明

Gateway with AI Extension v1.4.0-aliyun.1版本目前仅对白名单用户开放,请提交工单申请使用。

版本号

变更时间

变更内容

变更影响

v1.4.0-aliyun.1

20250527

  • 支持Gateway API 1.3.0。

  • 推理扩展:

    • 支持vLLM、SGLang、TensorRT-LLM多种推理服务框架。

    • 支持前缀感知的负载均衡。

    • 支持基于模型名称的推理服务路由能力。

    • 支持推理请求排队与优先级调度能力。

  • 生成式AI请求可观测能力。

  • 支持全局限流。

  • 支持基于生成式AI请求Token的全局限流。

  • 支持添加Secret内容到指定请求Header。

旧版本升级会造成网关Pod重启,建议在业务低峰期进行。

202504

版本号

变更时间

变更内容

变更影响

v1.3.0-aliyun.2

2025057

  • 支持ACS集群。

  • 推理扩展增强:支持在HTTPRoute中引用InferencePool资源,并且同时支持了InferencePool级别的权重路由、流量镜像和熔断等能力。

  • 支持前缀感知的负载均衡。

旧版本升级会造成网关Pod重启,建议在业务低峰期进行。