生成式AI服务增强
- Gateway with Inference Extension概述
- 推理服务框架支持说明
- 快速体验Gateway with Inference Extension
- 使用Gateway with Inference Extension实现智能路由与流量管理
- 自定义推理扩展配置
- 自定义Gateway配置
- 构建生成式AI推理服务的灰度发布策略
- 通过配置智能路由规则实现推理服务的流量镜像
- 通过推理服务智能路由实现请求熔断机制
- 使用智能推理路由实现前缀感知负载均衡
- 收集Gateway with Inference Extension数据面监控
- 构建基于模型名称的推理服务路由
- 使用智能推理路由实现推理请求排队与优先级调度
- 观测生成式AI请求
- 基于生成式AI请求的Token数进行全局限流
- 使用Gateway with Inference Extension为SGLang PD分离服务配置推理路由
- 使用智能推理路由实现KVCache感知的负载均衡