AI Fallback

LLM API的模型服务因异常、故障或高负载而无法正常响应时,通过配置Fallback切换到备用模型,有效避免因模型服务中断导致的响应失败问题。本文将介绍如何为LLM API开启和配置Fallback。

什么是AI Fallback

AI Fallback 是指LLM API在主模型服务不可用时Fallback到备用模型,从而提升LLM API的可用性,避免因为某个模型服务的异常或者高负载造成的请求不可用。

LLM API 支持多级Fallback,启用并合理的配置Fallback, 可有效提升AI请求的成功率。典型场景示例如下:

image.jpeg

AI 网关支持配置一到多个Fallback模型,当主模型服务不可用时,网关将会按顺序调用Fallback模型服务,如果调用成功,则会立即返回。

Fallback 模型包含如下配置项:

  • 服务名称:备用模型服务的名称,从该实例下的服务列表中选择。

  • 模型名称:支持透传和指定具体模型的名称,如 Qwen-plus。

触发条件

当调用模型服务,返回任意 HTTP 4xx、5xx 错误状态码时,均会触发 AI Fallback。

前提条件

配置AI Fallback

  1. 登录AI网关控制台

  2. 在左侧导航栏,选择实例,并在顶部菜单栏选择地域。

  3. 实例页面,单击目标网关实例ID。

  4. 在左侧导航栏,选择LLM API。在创建或者编辑LLM API时开启Fallback。

    • 创建LLM API:单击创建API,在LLM API 的配置页面,开启Fallback

    • 编辑已有API:单击目标API操作列的编辑,在LLM API 的配置页面,开启Fallback

    image

    配置项

    说明

    Fallback

    开启后可添加Fallback服务,按照降序执行。

    说明

    Fallback服务支持重复使用同一个服务组建多条策略。

    Fallback列表

    服务名称

    选择Fallback服务名称。

    模型名称

    默认为透传。将请求中的模型名称直接传递给Fallback模型服务。