什么是AI 网关

概述

在现代企业业务创新中,人工智能(AI)正逐步成为关键驱动力。随着大语言模型的发展,AI应用场景持续拓展,商用及自建模型正在推动不同领域业务进步,企业应用架构亦从微服务、云原生架构向AI原生架构演进。在此过程中,企业在AI集成、系统稳定性、安全合规及管理复杂性方面面临诸多挑战。

为应对上述挑战,云原生API网关推出AI网关产品,作为企业AI应用与模型服务、工具及其他Agent之间的核心连接组件,通过提供协议转换、安全防护、流量治理和统一观测等能力,协助企业构建和管理 AI 原生应用。

企业应用 AI 场景所面临的挑战

AIAI应用正广泛应用于企业各类场景。相较于传统应用,AI应用具有显著的架构特征:以模型为核心,基于模型的推理能力,结合提示词、工具调用与记忆机制,实现对特定业务需求的支持与响应。

image.jpeg

根据AI应用的流量特征,可将其划分为以下三类场景:

  • AI应用访问各类模型服务:AI应用的核心特性在于利用模型能力进行推理与规划,因此保障模型访问链路的安全性与稳定性至关重要。

  • AI应用调用外部工具:工具作为AI应用与外部系统交互的桥梁,通常通过MCP等标准化协议实现工具调用。

  • AI应用被外部访问:包括被终端用户或其他AI应用访问,此类场景下AI应用常通过A2A等协议实现应用间的通信与调用。

企业在落地上述三类场景时,普遍面临多样化的工程挑战与技术难题。具体包括:

访问模型服务的挑战:三多两高

三多:

  1. 多模型:不同模型供应商的API接口规范、认证机制和调用方式存在差异,导致调用方难以实现跨供应商的统一集成与灵活切换,缺乏标准化的抽象层支持多模型并行调用。

  2. 多模态:与文生文大模型统一兼容OpenAI标准不同,多模态模型在传输协议(如SSE、WebSocket、WebRTC)、通信模式(同步/异步)以及请求响应结构方面缺乏统一标准,接口形态多样化,增加了系统集成与运维管理的复杂性。

  3. 多场景:不同业务场景对模型服务的需求差异显著,例如实时语音转换要求低延迟(low RT),长文本理解则强调处理稳定性,各类场景在限流策略、容错机制和服务质量保障上的需求各异,需定制化适配。

两高:

  1. 安全要求高:企业在调用模型服务过程中面临数据泄露风险,尤其是在使用外部或开源模型时,敏感数据的传输与处理需满足严格的数据合规性要求,包括隐私保护、审计追踪和访问控制等安全管控措施。

  2. 稳定性要求高:模型服务受限于底层算力资源,普遍存在较低的接口限流阈值,且相比传统API服务,其响应延迟(RT)和调用成功率波动较大,服务可用性相对不稳定,对上层AI应用的连续性和用户体验构成挑战。

访问工具的挑战:精准安全

AI 应用在调用工具时面临的主要挑战在于实现高效性与安全性的平衡。

随着可用工具数量的增长,若将全部工具列表输入大模型进行推理选择,会导致 token 消耗显著上升,增加推理成本;同时,候选工具过多可能引发模型误选,降低执行准确率。

此外,工具通常与核心业务逻辑直接关联,不当调用可能扩大系统安全风险面,已出现如 MCP 恶意投毒等新型攻击手段,对工具访问机制的安全设计提出了更高要求。

访问 AI 应用的挑战:稳定灵活

开发者可通过多种方式构建 AI 应用,主要包括以下三类:

  • 高代码开发:基于 Spring AI Alibaba、ADK、LangChain 等框架进行编码实现。该方式具备最高的灵活性和功能扩展能力,同时对开发者技术水平有更高要求。

  • 低代码开发:通过百炼等平台,以可视化拖拽方式完成应用流程编排。该方式支持快速搭建与迭代,降低开发门槛,适合快速验证和原型设计。

  • 零代码开发:利用 JManus 等工具,仅通过提示词配置即可构建 AI 应用,无需编程,适用于简单场景的快速部署。

由于不同开发模式在实现形态和架构设计上存在差异,导致 AI 应用的接入方式缺乏统一标准,难以实现与云原生应用类似的集中化治理与管控。

此外,AI 应用的行为与性能高度依赖底层大模型的能力,其输出稳定性存在不确定性。若未采取有效的隔离与容错机制,单点故障可能引发连锁反应,造成依赖该应用的业务系统大规模异常。

AI 网关加持下三大场景的典型实践

为解决客户面临的问题,阿里云推出AI网关产品,作为AI应用与模型服务、工具及其他Agent之间的桥梁,通过以下三个具体场景展示AI网关的典型实践。

模型访问

企业计划构建AI应用以提升经营效率并探索新业务场景,基于阿里云平台,在PAI上部署了微调模型,并集成阿里云百炼作为兜底服务。针对图像生成等特定需求,采用部署于函数计算的开源模型。为实现各AI应用对大模型服务的安全、高效调用,企业部署AI网关,按不同应用场景配置Model API,并将流量治理、认证鉴权等管控能力集成至API层,统一对外提供模型访问入口。

image.jpeg

通过 AI 网关可有效解决“三多两高”问题:

  • 多模型:AI 网关支持多种模型路由策略,包括基于模型名称、请求比例或特定请求特征(如 Header)的路由规则。同时,网关可将不同模型供应商的协议统一转换为 OpenAI 兼容接口,使 AI 应用仅需对接单一标准即可实现多模型间的无缝切换。

  • 多模态:AI 网关支持代理 HTTP 和 WebSocket 协议的多模态模型调用,提供统一接入点,使应用能够以一致方式调用文生文、文生图、语音识别等各类模型。此外,管理员还可通过插件机制增强多模态调用的安全性与稳定性。

  • 多场景:推荐根据具体模型应用场景(如文本生成、图像生成、语音识别等)创建独立的 Model API,并为每个调用方分配唯一的消费者身份。基于消费者维度实现调用观测、限流控制、安全防护及计量计费,保障资源隔离与精细化管理。

  • 安全要求高:AI 网关在网络安全、数据安全和内容安全三个层面提供全面防护。

    • 网络安全:集成 SSL 证书、WAF 防护及 IP 黑白名单功能,在网络入口层抵御恶意流量与攻击。

    • 数据安全:支持消费者侧的身份鉴权,避免 API Key 直接暴露;对后端模型服务实施后端鉴权与 API Key 管理,并可通过 KMS 托管密钥,防止敏感信息在网关本地落盘。

    • 内容安全:深度集成 AI 安全护栏能力,实现对违规内容与风险输入的实时拦截;结合数据脱敏插件,在请求转发前去除敏感信息,确保内容合规。

  • 稳定性要求高:AI 网关从“可观测”与“可控制”两个维度提升系统稳定性。

    • 可观测性:记录每次请求的来源供应商、目标模型、调用消费者及关键指标(如首包延迟、Token 数量),并对限流、拦截、Fallback 等事件进行标记,通过内置监控大盘实现全链路可视化。

    • 可控性:提供负载均衡、Fallback 机制、限流策略和缓存能力,推荐按消费者维度配置治理规则,如 Token 数量限制和并发数控制。管理员可根据监控数据持续优化策略,动态调整资源配置,保障系统稳定运行。

工具访问

企业在完成模型服务的统一访问体系建设后,识别到AI应用在工具访问方面存在较多问题,尤其面临较高的安全风险,需进行重点治理。为此,企业决定对工具访问的协议和入口实施统一管控。企业架构团队选定MCP作为工具访问的标准协议,并利用AI网关提供的HTTP to MCP转换能力,将现有API自动转换为MCP Server,支撑业务快速迭代与创新。

image.jpeg

AI网关通过以下机制保障工具调用的精准性与安全性:

  • 精准性

    AI网关同时支持接入存量HTTP服务和托管MCP Server。对于存量HTTP服务,用户可在网关中动态更新工具描述信息。网关支持工具的灵活编排,可通过创建虚拟MCP Server按需组合工具列表,满足不同业务场景需求,实现ProviderConsumer独立定义各自的MCP Server。此外,AI网关提供智能工具路由功能,可在网关侧根据请求内容自动筛选相关工具集合,仅返回与当前任务匹配的工具列表,有效减少模型推理所需的Token消耗并提升工具选择准确性。

  • 安全性:在工具访问控制方面,AI网关构建了多层次的安全机制。除支持MCP Server级别的调用鉴权外,还支持对单个工具进行细粒度的访问权限配置,实现基于调用方身份的精细化授权管理,确保不同安全等级的工具可依据风险级别分配相应的访问权限。

Agent 访问

随着AI应用数量的增加,企业为解决AI应用间的协同与管理问题,将AI应用统一接入AI网关,并推荐基于A2A协议通过Nacos AI Registry实现服务的注册与发现。

image.jpeg

AI 网关可作为 AI 应用的统一代理服务,具备稳定性与灵活性。

  • 稳定性:AI 网关支持直连多种阿里云运行平台(如 ACK、FC、SAE),提供主动与被动健康检查机制,自动隔离异常节点。通过结合灰度发布能力,降低变更风险。并支持多维度限流策略,防止应用过载,保障服务稳定。

  • 灵活性:AI 网关通过服务发现功能,统一暴露部署于不同计算平台的 AI 应用,并提供 REST 到 A2A 协议的转换能力,实现存量 HTTP 应用向 A2A 协议的自动化升级。对于基于百炼构建的低代码 AI 应用,AI 网关支持统一代理接入,并可扩展二次鉴权机制。

此外,AI 网关深度集成阿里云可观测体系,AI 应用接入后可一键启用全链路观测能力,覆盖从应用层、MCP 工具到模型调用的完整调用链路,实现端到端的追踪与故障定位。

AI 网关的核心能力

模型、MCP ServerAgent统一代理

image.jpeg

AI网关提供包括模型、MCP ServerAgent的代理能力,支持对多种服务类型的统一接入与管理,具体包括:

  • AI 服务:支持各类模型服务的代理,涵盖百炼、OpenAI、Minimax、Anthropic、Amazon Bedrock、Azure等厂商的模型服务,同时兼容基于Ollama、vLLM、SGLang等自建模型。支持在AI服务中配置API-KEY,并针对内部服务地址指定自定义DNS Server。

  • Agent 服务:支持Agent应用平台的服务,包括百炼、Dify及用户自定义的Agent工作负载。可配置API-KEYAPP-ID以实现身份认证与访问控制。

  • 容器服务:支持运行在阿里云ACKACS集群上的服务,单个AI网关实例最多可关联3个容器集群。

  • Nacos 服务:支持接入注册于MSE Nacos注册中心的服务实例,适用于普通微服务及MCP Server。

  • DNS 服务:支持通过DNS解析方式访问后端服务,允许指定专用DNS Server以解析私有网络或内部域名。

  • 固定地址:支持以固定IP列表形式配置后端服务地址,可设置多个IP:Port地址。

  • SAE 服务:支持运行在阿里云 SAE 上的服务。

  • FC 服务:支持阿里云函数计算(FC)服务接入,AI网关可绕过HTTP Trigger,直接与后端服务集成,提升调用效率。

  • 计算巢 MCP 服务:支持由计算巢托管的 MCP Server。

AI网关支持为服务配置健康检查功能,包含主动健康检查和被动健康检查两种模式。

  • 主动健康检查:网关依据用户配置的探测规则,周期性地向服务节点发送健康探测请求,以判断其可用状态。

  • 被动健康检查:网根依据用户配置的探测规则,结合服务节点在实际请求处理中的表现评估其健康状态

模型、Agent 的负载均衡和灰度发布

模型的负载均衡和灰度发布

Model API 预置 3 种模型负载均衡能力,分别是:

  • 单模型服务:可指定唯一的大模型服务,支持透传模型名称,也可指定模型名称。当显示指定模型名称时,用户请求中传入的模型名称将被忽略。image.jpeg

  • 多模型服务(按模型名称):支持配置一个或多个大模型服务,并为每个服务设置模型名称的匹配规则。例如,可定义模型名称匹配 deepseek-* 的请求调用 DeepSeek 大模型服务,模型名称匹配 qwen-* 的请求调用阿里云百炼大模型服务。image.jpeg

  • 多模型服务(按比例):支持配置一个或多个大模型服务,为每个服务指定对应的模型名称及请求分配比例。适用于新模型灰度发布等场景。image.jpeg

Model API 支持自定义路由配置,可根据请求特征(如特定 Header)将请求转发至不同的后端服务。

image.jpeg

Agent 的灰度发布

与 Model API 类似,Agent API 支持基于请求特征的灰度发布能力,可根据特定特征(例如特定 Header)将请求路由至不同的后端服务。

image.jpeg

基于消费者等维度的鉴权、观测、限流和计量

AI网关支持基于不同业务来源的独立鉴权、监控、限流及计量功能,满足用户的精细化管理需求。

image.jpeg

消费者鉴权

用户可在 AI 网关上创建不同的消费者,为每个消费者分配请求凭证。对于每一个 Model API、MCP Server 和 Agent API,均可按需开启消费者鉴权。AI 网关支持 API-KEY、JWT、HMAC 三种消费者鉴权方式。对于安全敏感的场景,用户可将消费者凭证托管到 KMS 上。

用户可在 AI 网关中创建多个消费者,并为每个消费者分配独立的请求凭证。针对 Model API、MCP Server 和 Agent API,可按需启用消费者认证。AI 网关支持 API-Key、JWT 和 HMAC 三种鉴权方式。对于安全性要求较高的场景,用户可将消费者凭证托管至 KMS进行安全管理。

消费者观测和计量

AI 网关提供多维度的可观测性能力,支持按消费者等维度进行监控与分析。关键指标包括:

  • QPS:每秒AI请求与响应的数量统计,细分为AI请求QPS、流式响应QPS及非流式响应QPS。

  • 请求成功率:AI请求的成功率,支持按秒、15秒、分钟粒度进行统计。

  • token 消耗数/s:每秒消耗的Token数量,分为输入Token、输出Token及总计Token。

  • 请求平均 RT:在指定时间段内(按秒、15秒、分钟统计)AI请求的平均响应时间(单位:毫秒),细分项包括非流式RT、流式RT(流式响应全过程时间)、流式首包RT(流式响应首包延迟)。

  • 缓存的命中数:统计指定时间段内的缓存命中次数与未命中次数。

  • 限流统计:统计指定时间段内被限流的请求数与正常处理的请求数。

  • 按模型的 token 统计:统计不同模型在指定时间段内的Token消耗情况。

  • 按消费者的 token 统计:统计不同消费者在指定时间段内的Token消耗情况。

  • 风险统计:基于内容安全检测结果,按风险类型、消费者等维度统计识别出的风险请求。

基于上述可观测性数据,AI网关可支持以消费者为维度的计量计费功能,提供特定消费者在指定时间段内调用特定模型所消耗的Token数量等明细数据,便于用户快速实现精准的资源使用计量与计费。

消费者限流

AI 网关支持基于消费者、模型名称、请求 Header 等多种维度的限流策略,可对单位时间内的请求数、并发数、连接数及 Token 数进行限制。

多维度、多模态的 AI 安全防护

AI 网关集成内容安全防护功能,实现 AI 安全防护能力。支持按 API 配置启用,可有效防范模型调用过程中的安全风险,包括敏感词、合规性、提示词注入攻击及爆破攻击等,提升 AI 应用的安全性和稳定性。

image.jpeg

AI网关支持针对不同防护维度配置独立的拦截策略,可防护的维度包括:

  • contentModeration 内容合规检测

  • promptAttack 提示词攻击检测

  • sensitiveData 敏感内容检测

  • maliciousFile 恶意文件检测

  • waterMark 数字水印标识

针对不同防护维度,可分别配置相应的拦截策略,拦截策略包括:

  • :风险等级 low、medium、high 的请求均会被拦截。

  • :风险等级 medium、high 的请求会被拦截。

  • :仅拦截风险等级为 high 的请求。

  • 观察模式:不拦截请求,仅记录。

热插拔、热更新的策略与扩展插件

AI网关提供丰富的内置扩展策略与插件,同时支持用户开发自定义插件以满足特定业务场景需求。

Model API为例,、预置工具精选、安全防护、限流、缓存及联网搜索五项核心策略,并支持按需启用更多策略与插件。

所有策略与插件均支持热插拔与热更新,确保配置变更过程中服务流量不受影响。

后续步骤

了解AI网关产品选型计费说明

创建网关实例体验AI网关各项能力。