当LLM API的模型服务因异常、故障或高负载而无法正常响应时,通过配置Fallback切换到备用模型,有效避免因模型服务中断导致的响应失败问题。本文将介绍如何为LLM API开启和配置Fallback。
什么是AI Fallback
AI Fallback 是指LLM API在主模型服务不可用时Fallback到备用模型,从而提升LLM API的可用性,避免因为某个模型服务的异常或者高负载造成的请求不可用。
LLM API 支持多级Fallback,启用并合理的配置Fallback, 可有效提升AI请求的成功率。典型场景示例如下:
AI 网关支持配置一到多个Fallback模型,当主模型服务不可用时,网关将会按顺序调用Fallback模型服务,如果调用成功,则会立即返回。
Fallback 模型包含如下配置项:
触发条件
当调用模型服务,返回任意 HTTP 4xx、5xx 错误状态码时,均会触发 AI Fallback。
前提条件
配置AI Fallback
登录AI网关控制台。
在左侧导航栏,选择实例,并在顶部菜单栏选择地域。
在实例页面,单击目标网关实例ID。
在左侧导航栏,选择LLM API。在创建或者编辑LLM API时开启Fallback。
创建LLM API:单击创建API,在LLM API 的配置页面,开启Fallback。
编辑已有API:单击目标API操作列的编辑,在LLM API 的配置页面,开启Fallback。
配置项
说明
Fallback
开启后可添加Fallback服务,按照降序执行。
说明Fallback服务支持重复使用同一个服务组建多条策略。
Fallback列表
服务名称
选择Fallback服务名称。
模型名称
默认为透传。将请求中的模型名称直接传递给Fallback模型服务。
该文章对您有帮助吗?