什么是AI 网关

本文旨在为您介绍AI 网关的使用场景以及其核心能力。通过配置AI 网关,将治理能力集成到网关上,从而帮助您高效且安全地使用大模型服务。

概述

在现代企业的业务创新中,人工智能(AI)逐渐扮演着不可或缺的角色。随着大语言模型的兴起,AI的应用场景不断扩大,各种商业和自建的模型正促进着不同领域的业务发展。然而,企业在应用AI时,面临着集成、稳定性、安全性和管理复杂性等诸多挑战。为了应对这些挑战,云原生 API 网关推出了 AI 网关产品,其作为连接企业AI应用和大语言模型服务的桥梁,能够显著提升企业应用大模型服务的集成效率和治理能力。

企业应用 AI 场景所面临的挑战

大语言模型正被广泛应用于企业的AI场景,包括以下三种典型的调用场景:

  1. 开发者直接使用大模型服务: 开发人员直接对接不同供应商的大语言模型API,以满足业务需求。

  2. AI应用调用大模型服务: 企业内部的AI应用通过调用大模型服务来处理复杂任务。

  3. AI应用调用普通应用(作为工具): AI应用通过调用普通应用的API接口来扩展功能。

image

在实际应用中,企业往往需要在多个模型之间进行选择和切换。当某个模型因稳定性或效果不佳而需要更换时,企业希望能够快速切换到另一个模型,同时对新推出的模型进行灰度测试以便评估效果。与个人应用不同,企业在采用AI技术时,还面临着以下四大挑战:

  1. 与不同的大模型服务的集成和切换成本高:不同模型供应商的LLM API接口标准不同,访问方式不同,LLM API的调用方无法平滑地在不同供应商之间切换,无法同时使用不同供应商提供的模型。

  2. 对企业内大模型服务使用者的管理难度大:LLM API 作为企业内的共享和稀缺资源,需要避免因为部分调用者使用不当导致被限流等问题,且不同的模型成本差异较大,企业需要保证高成本的模型能被用在高价值的业务场景上,但仅靠管理手段,很难做到对使用者的精细化的权限管理和资源管控,也难以针对不同的业务场景采用不同的模型和策略。

  3. 数据安全和合规风险高:大模型服务受限于背后的硬件等因素,一般均为 SaaS 服务的形式,企业在调用大模型服务接口时,其内部数据存在泄露风险,同时,调用大模型服务,尤其是开源或外部大模型服务时,数据的合规也是不可忽视的问题。

  4. 大模型服务自身的稳定性差:大模型服务受到硬件限制,其接口限流阈值较低,且自身稳定性也低于一般 API 服务,接口的RT和成功率均不够稳定,进而影响AI应用的整体可用性。

AI 网关的场景示例

为了解决客户面临的问题,云原生 API 网关推出了 AI 网关的产品形态,作为开发者和 AI 应用与大模型服务之间的桥梁,我们以一个具体的场景来展示 AI 网关的典型使用方式。

某企业计划建设 AI 应用,提升企业的经营效率,探索新的业务机会,为此,该企业采购了阿里云百炼、Azure OpenAI 等大模型服务,并在阿里云 FC 上部署了自建的开源模型(llama3.x)。为了让企业内各个 AI 应用可以高效且安全地使用大模型服务,该企业配置了 AI 网关,将治理能力集成到网关上,对各个 AI 应用提供统一的访问入口。

具体的使用方式见下图:

image.jpeg

网关管理员为每一个 AI 应用分配一个消费者身份(以 API Key 的方式鉴权),该应用请求 AI 网关时,根据所带的 model 参数,网关会自动路由到百炼和 Azure 的模型服务上,如果模型服务因为限流或其它原因不可用,网关会自动将该请求 fallback 到自建的开源模型上。为了保证数据安全合规,所有的 AI 请求都需要通过内容安全的审核,对于不合规的请求,网关会直接拦截。网关管理员开启了限流和缓存,避免某个应用请求太多导致模型服务被打挂。同时,网关管理员会持续关注 AI API 的观测大盘,查看模型调用情况,并针对性地做出调整。

AI 网关的核心能力

配合 API 网关,用户可以形成 AI 应用以 API 形态对外透出和管理的完整方案。即:

  1. 所有对大模型服务的调用都走 AI 网关,在 AI 网关上解决模型的稳定性、鉴权、安全合规、观测治理等问题。

  2. 所有 AI 应用对外透出的 API 调用都走 API 网关,在 API 网关上解决协议接入、认证鉴权、限流、降级等诉求。

image

为解决这些问题,AI 网关提供了如下核心能力:

1. 统一调用方式

AI 网关可快速集成各类大模型服务,包括商业大模型服务和用户自建的大模型服务,并统一对外暴露的 API (兼容 OpenAI)。截至本文撰写时,AI 网关已支持包括阿里云百炼、OpenAI 在内十几家国内外大模型供应商和自建大模型服务(如 ollama)。

AI 网关提供 AI API 这种针对 AI 场景优化的 API 类型,AI API 提供 3 种集成大模型服务的方式,分别是:

  • 单模型服务:可指定唯一一个大模型服务,支持透传模型名称,也可指定模型名称,当指定模型名称时,用户请求传入的模型名称将被忽略。

    image.jpeg

  • 多模型服务(按模型名称):可指定一到多个大模型服务,并为每个大模型服务配置模型名称的匹配规则,比如可配置模型名称符合 gpt-* 的模式,则调用 openAI 大模型服务,模型名称符合 qwen-* 的模式,则调用阿里云百炼大模型服务。

    image.jpeg

  • 多模型服务(按比例):可指定一到多个大模型服务,并为每个大模型服务指定请求的模型名称和百分比,这种模式非常适合对新模型进行灰度的场景。

    image.jpeg

说明

2. AI 调用可观测

AI 网关集成 AI 调用的可观测能力,包括 AI 请求的 Metrics、Logging 和 Tracing 能力,与一般的 API 观测不同,AI 观测支持按 Token 维度对 AI 调用进行统计,支持 API、模型、消费者等观测维度,AI 请求和响应的日志也会被记录下来,用于后续的追踪与审计。

AI 观测的关键指标包括:

  • QPS:每秒 AI 请求和响应的数量统计,分为 AI 请求的 QPS、流式响应的 QPS 和非流式响应的 QPS。

  • 请求成功率:即 AI 请求的成功率,可按秒、15 秒、分钟进行统计。

  • token 消耗数/s:每秒消耗的 token 数量,分为输入 token、输出 token 和总计 token。

  • 请求平均 RT:一段时间内(秒、15 秒、分钟) AI 请求的平均响应时间(ms),分为非流式 RT、流式 RT(流式响应的整体时间)、流式首包 RT(流式响应的首包时间)。

  • 缓存的命中数:一段时间内缓存的命中数和 miss 数统计。

  • 限流统计:一段时间内被限流的请求和正常请求的统计。

  • 按模型的 token 统计:一段时间内不同模型的 token 消耗统计。

  • 按消费者的 token 统计:一段时间内不同消费者的 token 消耗统计。

  • 风险统计:被内容安全检测出来的风险,按照风险类型、消费者等维度的统计。

说明

有关AI调用可观测的详细信息,请参见AI 可观测

3. 内置安全防护

AI 网关在安全方面建设了 3 个核心能力:

  1. API-KEY 统一管理和轮转:将大模型服务的 API-KEY 保存在网关层面,对调用方屏蔽,并可配置多个 API-KEY 自动轮转。

  2. 统一鉴权:内置消费者鉴权能力,可对不同的调用方分别授权,支持 JWT 和 API Key 等鉴权方式,并可按照消费者观测器调用情况和配置限流。

  3. 内容审核:与阿里云内容安全服务深度集成,对 AI 请求和响应的内容进行安全审核和防护,可按需配置审核策略和敏感词,一方面保证请求内容的合规,另一方面避免企业敏感信息的外泄。

image

说明

4. AI 调用可治理、可加速

AI 网关为企业 AI 应用提供了统一的治理中心,可通过限流、缓存、fallback 等能力,有效提升模型调用的成功率,具体来说:

  1. 按 Token 限流:AI 网关内置 Token 限流策略,可根据请求特征(如 header ),限制单位时间消费的 Token 数。

  2. 多 API-KEY 自动轮转:AI 网关支持为模型服务配置多个 API-KEY,在处理 AI 请求时,多个 KEY 会自动轮转,避免某个 KEY 的问题影响全部请求。

  3. AI 缓存:AI 网关集成 AI 缓存策略,可对重复出现的请求进行响应缓存,提升响应效率并降低大模型服务成本。

  4. 模型服务 fallback:AI 网关支持模型服务不可用时 fallback 到备用模型,且支持多级 fallback,可有效提升 AI 请求的成功率。

说明
  • AI Token 限流的详细信息,请参见AI 限流

  • 缓存的详细信息,请参见AI 缓存

综上所述,AI网关有望成为企业提升AI应用效率的关键工具。通过简化集成、统一治理、强化安全和加速响应,企业在利用AI技术创新过程中将更加高效、安全和可控。