AI应用模型工具统一接入管理-AI 网关-API 网关-阿里云

概述

在现代企业业务创新中，人工智能（AI）正逐步成为关键驱动力。随着大语言模型的发展，AI应用场景持续拓展，商用及自建模型正在推动不同领域业务进步，企业应用架构亦从微服务、云原生架构向AI原生架构演进。在此过程中，企业在AI集成、系统稳定性、安全合规及管理复杂性方面面临诸多挑战。

为应对上述挑战，云原生API网关推出AI网关产品，作为企业AI应用与模型服务、工具及其他Agent之间的核心连接组件，通过提供协议转换、安全防护、流量治理和统一观测等能力，协助企业构建和管理 AI 原生应用。

企业应用 AI 场景所面临的挑战

AI及AI应用正广泛应用于企业各类场景。相较于传统应用，AI应用具有显著的架构特征：以模型为核心，基于模型的推理能力，结合提示词、工具调用与记忆机制，实现对特定业务需求的支持与响应。

根据AI应用的流量特征，可将其划分为以下三类场景：

AI应用访问各类模型服务：AI应用的核心特性在于利用模型能力进行推理与规划，因此保障模型访问链路的安全性与稳定性至关重要。
AI应用调用外部工具：工具作为AI应用与外部系统交互的桥梁，通常通过MCP等标准化协议实现工具调用。
AI应用被外部访问：包括被终端用户或其他AI应用访问，此类场景下AI应用常通过A2A等协议实现应用间的通信与调用。

企业在落地上述三类场景时，普遍面临多样化的工程挑战与技术难题。具体包括：

访问模型服务的挑战：三多两高

三多：

多模型：不同模型供应商的API接口规范、认证机制和调用方式存在差异，导致调用方难以实现跨供应商的统一集成与灵活切换，缺乏标准化的抽象层支持多模型并行调用。
多模态：与文生文大模型统一兼容OpenAI标准不同，多模态模型在传输协议（如SSE、WebSocket、WebRTC）、通信模式（同步/异步）以及请求响应结构方面缺乏统一标准，接口形态多样化，增加了系统集成与运维管理的复杂性。
多场景：不同业务场景对模型服务的需求差异显著，例如实时语音转换要求低延迟（low RT），长文本理解则强调处理稳定性，各类场景在限流策略、容错机制和服务质量保障上的需求各异，需定制化适配。

两高：

安全要求高：企业在调用模型服务过程中面临数据泄露风险，尤其是在使用外部或开源模型时，敏感数据的传输与处理需满足严格的数据合规性要求，包括隐私保护、审计追踪和访问控制等安全管控措施。
稳定性要求高：模型服务受限于底层算力资源，普遍存在较低的接口限流阈值，且相比传统API服务，其响应延迟（RT）和调用成功率波动较大，服务可用性相对不稳定，对上层AI应用的连续性和用户体验构成挑战。

访问工具的挑战：精准安全

AI 应用在调用工具时面临的主要挑战在于实现高效性与安全性的平衡。

随着可用工具数量的增长，若将全部工具列表输入大模型进行推理选择，会导致 token 消耗显著上升，增加推理成本；同时，候选工具过多可能引发模型误选，降低执行准确率。

此外，工具通常与核心业务逻辑直接关联，不当调用可能扩大系统安全风险面，已出现如 MCP 恶意投毒等新型攻击手段，对工具访问机制的安全设计提出了更高要求。

访问 AI 应用的挑战：稳定灵活

开发者可通过多种方式构建 AI 应用，主要包括以下三类：

高代码开发：基于 Spring AI Alibaba、ADK、LangChain 等框架进行编码实现。该方式具备最高的灵活性和功能扩展能力，同时对开发者技术水平有更高要求。
低代码开发：通过百炼等平台，以可视化拖拽方式完成应用流程编排。该方式支持快速搭建与迭代，降低开发门槛，适合快速验证和原型设计。
零代码开发：利用 JManus 等工具，仅通过提示词配置即可构建 AI 应用，无需编程，适用于简单场景的快速部署。

由于不同开发模式在实现形态和架构设计上存在差异，导致 AI 应用的接入方式缺乏统一标准，难以实现与云原生应用类似的集中化治理与管控。

此外，AI 应用的行为与性能高度依赖底层大模型的能力，其输出稳定性存在不确定性。若未采取有效的隔离与容错机制，单点故障可能引发连锁反应，造成依赖该应用的业务系统大规模异常。

AI 网关加持下三大场景的典型实践

为解决客户面临的问题，阿里云推出AI网关产品，作为AI应用与模型服务、工具及其他Agent之间的桥梁，通过以下三个具体场景展示AI网关的典型实践。

模型访问

企业计划构建AI应用以提升经营效率并探索新业务场景，基于阿里云平台，在PAI上部署了微调模型，并集成阿里云百炼作为兜底服务。针对图像生成等特定需求，采用部署于函数计算的开源模型。为实现各AI应用对大模型服务的安全、高效调用，企业部署AI网关，按不同应用场景配置Model API，并将流量治理、认证鉴权等管控能力集成至API层，统一对外提供模型访问入口。

通过 AI 网关可有效解决“三多两高”问题：

多模型：AI 网关支持多种模型路由策略，包括基于模型名称、请求比例或特定请求特征（如 Header）的路由规则。同时，网关可将不同模型供应商的协议统一转换为 OpenAI 兼容接口，使 AI 应用仅需对接单一标准即可实现多模型间的无缝切换。
多模态：AI 网关支持代理 HTTP 和 WebSocket 协议的多模态模型调用，提供统一接入点，使应用能够以一致方式调用文生文、文生图、语音识别等各类模型。此外，管理员还可通过插件机制增强多模态调用的安全性与稳定性。
多场景：推荐根据具体模型应用场景（如文本生成、图像生成、语音识别等）创建独立的 Model API，并为每个调用方分配唯一的消费者身份。基于消费者维度实现调用观测、限流控制、安全防护及计量计费，保障资源隔离与精细化管理。
安全要求高：AI 网关在网络安全、数据安全和内容安全三个层面提供全面防护。
- 网络安全：集成 SSL 证书、WAF 防护及 IP 黑白名单功能，在网络入口层抵御恶意流量与攻击。
- 数据安全：支持消费者侧的身份鉴权，避免 API Key 直接暴露；对后端模型服务实施后端鉴权与 API Key 管理，并可通过 KMS 托管密钥，防止敏感信息在网关本地落盘。
- 内容安全：深度集成 AI 安全护栏能力，实现对违规内容与风险输入的实时拦截；结合数据脱敏插件，在请求转发前去除敏感信息，确保内容合规。
稳定性要求高：AI 网关从“可观测”与“可控制”两个维度提升系统稳定性。
- 可观测性：记录每次请求的来源供应商、目标模型、调用消费者及关键指标（如首包延迟、Token 数量），并对限流、拦截、Fallback 等事件进行标记，通过内置监控大盘实现全链路可视化。
- 可控性：提供负载均衡、Fallback 机制、限流策略和缓存能力，推荐按消费者维度配置治理规则，如 Token 数量限制和并发数控制。管理员可根据监控数据持续优化策略，动态调整资源配置，保障系统稳定运行。

工具访问

企业在完成模型服务的统一访问体系建设后，识别到AI应用在工具访问方面存在较多问题，尤其面临较高的安全风险，需进行重点治理。为此，企业决定对工具访问的协议和入口实施统一管控。企业架构团队选定MCP作为工具访问的标准协议，并利用AI网关提供的HTTP to MCP转换能力，将现有API自动转换为MCP Server，支撑业务快速迭代与创新。

AI网关通过以下机制保障工具调用的精准性与安全性：

精准性：
AI网关同时支持接入存量HTTP服务和托管MCP Server。对于存量HTTP服务，用户可在网关中动态更新工具描述信息。网关支持工具的灵活编排，可通过创建虚拟MCP Server按需组合工具列表，满足不同业务场景需求，实现Provider与Consumer独立定义各自的MCP Server。此外，AI网关提供智能工具路由功能，可在网关侧根据请求内容自动筛选相关工具集合，仅返回与当前任务匹配的工具列表，有效减少模型推理所需的Token消耗并提升工具选择准确性。
安全性：在工具访问控制方面，AI网关构建了多层次的安全机制。除支持MCP Server级别的调用鉴权外，还支持对单个工具进行细粒度的访问权限配置，实现基于调用方身份的精细化授权管理，确保不同安全等级的工具可依据风险级别分配相应的访问权限。

Agent 访问

随着AI应用数量的增加，企业为解决AI应用间的协同与管理问题，将AI应用统一接入AI网关，并推荐基于A2A协议通过Nacos AI Registry实现服务的注册与发现。

AI 网关可作为 AI 应用的统一代理服务，具备稳定性与灵活性。

稳定性：AI 网关支持直连多种阿里云运行平台（如 ACK、FC、SAE），提供主动与被动健康检查机制，自动隔离异常节点。通过结合灰度发布能力，降低变更风险。并支持多维度限流策略，防止应用过载，保障服务稳定。
灵活性：AI 网关通过服务发现功能，统一暴露部署于不同计算平台的 AI 应用，并提供 REST 到 A2A 协议的转换能力，实现存量 HTTP 应用向 A2A 协议的自动化升级。对于基于百炼构建的低代码 AI 应用，AI 网关支持统一代理接入，并可扩展二次鉴权机制。

此外，AI 网关深度集成阿里云可观测体系，AI 应用接入后可一键启用全链路观测能力，覆盖从应用层、MCP 工具到模型调用的完整调用链路，实现端到端的追踪与故障定位。

AI 网关的核心能力

模型、MCP Server与Agent统一代理

AI网关提供包括模型、MCP Server与Agent的代理能力，支持对多种服务类型的统一接入与管理，具体包括：

AI 服务：支持各类模型服务的代理，涵盖百炼、OpenAI、Minimax、Anthropic、Amazon Bedrock、Azure等厂商的模型服务，同时兼容基于Ollama、vLLM、SGLang等自建模型。支持在AI服务中配置API-KEY，并针对内部服务地址指定自定义DNS Server。
Agent 服务：支持Agent应用平台的服务，包括百炼、Dify及用户自定义的Agent工作负载。可配置API-KEY和APP-ID以实现身份认证与访问控制。
容器服务：支持运行在阿里云ACK或ACS集群上的服务，单个AI网关实例最多可关联3个容器集群。
Nacos 服务：支持接入注册于MSE Nacos注册中心的服务实例，适用于普通微服务及MCP Server。
DNS 服务：支持通过DNS解析方式访问后端服务，允许指定专用DNS Server以解析私有网络或内部域名。
固定地址：支持以固定IP列表形式配置后端服务地址，可设置多个IP:Port地址。
SAE 服务：支持运行在阿里云 SAE 上的服务。
FC 服务：支持阿里云函数计算（FC）服务接入，AI网关可绕过HTTP Trigger，直接与后端服务集成，提升调用效率。
计算巢 MCP 服务：支持由计算巢托管的 MCP Server。

AI网关支持为服务配置健康检查功能，包含主动健康检查和被动健康检查两种模式。

主动健康检查：网关依据用户配置的探测规则，周期性地向服务节点发送健康探测请求，以判断其可用状态。
被动健康检查：网根依据用户配置的探测规则，结合服务节点在实际请求处理中的表现评估其健康状态

模型、Agent 的负载均衡和灰度发布

模型的负载均衡和灰度发布

Model API 预置 3 种模型负载均衡能力，分别是：

单模型服务：可指定唯一的大模型服务，支持透传模型名称，也可指定模型名称。当显示指定模型名称时，用户请求中传入的模型名称将被忽略。
多模型服务（按模型名称）：支持配置一个或多个大模型服务，并为每个服务设置模型名称的匹配规则。例如，可定义模型名称匹配 deepseek-* 的请求调用 DeepSeek 大模型服务，模型名称匹配 qwen-* 的请求调用阿里云百炼大模型服务。
多模型服务（按比例）：支持配置一个或多个大模型服务，为每个服务指定对应的模型名称及请求分配比例。适用于新模型灰度发布等场景。

Model API 支持自定义路由配置，可根据请求特征（如特定 Header）将请求转发至不同的后端服务。

Agent 的灰度发布

与 Model API 类似，Agent API 支持基于请求特征的灰度发布能力，可根据特定特征（例如特定 Header）将请求路由至不同的后端服务。

基于消费者等维度的鉴权、观测、限流和计量

AI网关支持基于不同业务来源的独立鉴权、监控、限流及计量功能，满足用户的精细化管理需求。

消费者鉴权

用户可在 AI 网关上创建不同的消费者，为每个消费者分配请求凭证。对于每一个 Model API、MCP Server 和 Agent API，均可按需开启消费者鉴权。AI 网关支持 API-KEY、JWT、HMAC 三种消费者鉴权方式。对于安全敏感的场景，用户可将消费者凭证托管到 KMS 上。

用户可在 AI 网关中创建多个消费者，并为每个消费者分配独立的请求凭证。针对 Model API、MCP Server 和 Agent API，可按需启用消费者认证。AI 网关支持 API-Key、JWT 和 HMAC 三种鉴权方式。对于安全性要求较高的场景，用户可将消费者凭证托管至 KMS进行安全管理。

消费者观测和计量

AI 网关提供多维度的可观测性能力，支持按消费者等维度进行监控与分析。关键指标包括：

QPS：每秒AI请求与响应的数量统计，细分为AI请求QPS、流式响应QPS及非流式响应QPS。
请求成功率：AI请求的成功率，支持按秒、15秒、分钟粒度进行统计。
token 消耗数/s：每秒消耗的Token数量，分为输入Token、输出Token及总计Token。
请求平均 RT：在指定时间段内（按秒、15秒、分钟统计）AI请求的平均响应时间（单位：毫秒），细分项包括非流式RT、流式RT（流式响应全过程时间）、流式首包RT（流式响应首包延迟）。
缓存的命中数：统计指定时间段内的缓存命中次数与未命中次数。
限流统计：统计指定时间段内被限流的请求数与正常处理的请求数。
按模型的 token 统计：统计不同模型在指定时间段内的Token消耗情况。
按消费者的 token 统计：统计不同消费者在指定时间段内的Token消耗情况。
风险统计：基于内容安全检测结果，按风险类型、消费者等维度统计识别出的风险请求。

基于上述可观测性数据，AI网关可支持以消费者为维度的计量计费功能，提供特定消费者在指定时间段内调用特定模型所消耗的Token数量等明细数据，便于用户快速实现精准的资源使用计量与计费。

消费者限流

AI 网关支持基于消费者、模型名称、请求 Header 等多种维度的限流策略，可对单位时间内的请求数、并发数、连接数及 Token 数进行限制。

多维度、多模态的 AI 安全防护

AI 网关集成内容安全防护功能，实现 AI 安全防护能力。支持按 API 配置启用，可有效防范模型调用过程中的安全风险，包括敏感词、合规性、提示词注入攻击及爆破攻击等，提升 AI 应用的安全性和稳定性。

AI网关支持针对不同防护维度配置独立的拦截策略，可防护的维度包括：

contentModeration 内容合规检测
promptAttack 提示词攻击检测
sensitiveData 敏感内容检测
maliciousFile 恶意文件检测
waterMark 数字水印标识

针对不同防护维度，可分别配置相应的拦截策略，拦截策略包括：

高：风险等级 low、medium、high 的请求均会被拦截。
中：风险等级 medium、high 的请求会被拦截。
低：仅拦截风险等级为 high 的请求。
观察模式：不拦截请求，仅记录。

热插拔、热更新的策略与扩展插件

AI网关提供丰富的内置扩展策略与插件，同时支持用户开发自定义插件以满足特定业务场景需求。

以Model API为例，、预置工具精选、安全防护、限流、缓存及联网搜索五项核心策略，并支持按需启用更多策略与插件。

所有策略与插件均支持热插拔与热更新，确保配置变更过程中服务流量不受影响。

后续步骤

了解AI网关产品选型与计费说明。

创建网关实例体验AI网关各项能力。