Gateway with Inference Extension组件是基于Kubernetes社区Gateway API及其Inference Extension规范实现的增强型组件,支持Kubernetes四层/七层路由服务,并提供面向大语言模型(LLM)推理场景的智能负载均衡能力。本文介绍Gateway with Inference Extension组件的信息、使用说明和变更记录。
组件信息
Gateway with Inference Extension组件基于Envoy Gateway项目构建,兼容Gateway API功能,集成了Gateway API提供的推理扩展。主要用于提供LLM推理服务的负载均衡和路由功能。
使用说明
Gateway with Inference Extension组件的安装和使用依赖于Gateway API组件提供的CRD,安装前请确保集群中已经安装Gateway API组件。具体操作,请参见安装组件。
变更记录
2025年05月
Gateway with AI Extension v1.4.0-aliyun.1版本目前仅对白名单用户开放,请提交工单申请使用。
版本号 | 变更时间 | 变更内容 | 变更影响 |
v1.4.0-aliyun.1 | 2025年05月27日 |
| 旧版本升级会造成网关Pod重启,建议在业务低峰期进行。 |
2025年04月
版本号 | 变更时间 | 变更内容 | 变更影响 |
v1.3.0-aliyun.2 | 2025年05月7日 |
| 旧版本升级会造成网关Pod重启,建议在业务低峰期进行。 |