大语言模型管理功能为您提供一个统一、高效的平台,用于接入、代理和观测多种来源的大语言模型。您可以将商业模型、开源模型或私有模型整合至同一工作流,并通过模型代理策略实现成本优化、性能提升和稳定性保障。
核心概念与整体架构
核心概念
模型:对一个后端大模型服务的逻辑封装。它定义了模型的来源(API、部署或自定义)、访问凭证和基础配置。
模型代理:一个部署在阿里云函数计算 FC上的高性能LLM网关,其核心基于开源项目 LiteLLM 构建。它为您的模型提供统一的访问入口,并执行您配置的路由、容灾和并发控制等高级策略。
代理模式:一种单目标反向代理模式。此模式下的治理实例会绑定一个后端模型,所有请求都将直接转发至该模型。适用于简单、单一模型的应用场景。
负载模式 :一种多目标负载均衡器。此模式下的治理实例可绑定多个后端模型,并根据轮询或加权策略分发请求。适用于需要组合使用多个模型以优化成本和性能的复杂场景。
系统架构与数据流
客户端/应用:通过 HTTP/HTTPS 调用「模型代理」暴露的 API 端点(统一 OpenAI / Chat Completions 兼容接口)。
模型代理:接收请求,根据您配置的代理模式或负载模式以及Fallbacks、重试机制等高级策略,决定将请求路由到哪个后端模型。
模型服务:
API模型:请求被转发至外部服务商(如 OpenAI, Anthropic)的 API。
自定义模型:请求被转发至您指定的、符合 OpenAI API 规范的私有模型服务。
部署模型:请求被转发至您通过本平台部署在函数计算 Serverless GPU 上的开源模型。
可观测性 (日志服务 SLS):模型代理层收集所有请求的调用量、时延、错误信息,支持趋势分析、链路追踪、告警等。
模型接入指南
平台支持三种模型接入方式,以满足不同场景的需求。
接入 API 模型
适用于直接调用云端大模型服务,如 OpenAI、Anthropic、Google Gemini 等。
在大语言模型管理页面,单击添加模型,然后选择API模型。
配置模型信息:
名称:为模型设置一个易于识别的唯一标识。
描述:说明使用场景,便于团队协作。
服务提供商:从下拉列表中选择模型所属的服务商。此选项会影响 API 调用的默认路径和格式。
API端点:填写模型服务的 Base URL(不包含具体的 API 路径)。平台会自动根据服务商类型拼接
/chat/completions等路径。配置具体模型:勾选或手动输入您需要使用的具体模型。
凭证配置:选择使用已有凭证或API密钥来关联您的API 密钥。请确保凭证与所选的服务提供商相匹配,否则调用会失败。
单击创建模型。
至少选择 1 个具体模型才能创建成功
服务提供商必须与凭证中配置的 API Key 相匹配,否则后续调用会失败
接入自定义模型
适用于接入您自行部署在VPC内或公网的、与 OpenAI API 规范兼容的任何模型服务。
在大语言模型管理页面,单击添加模型,模型类型选择API模型,服务提供商选择自定义服务。
配置模型信息:
VPC网络配置:如果您的模型部署在VPC内,请在此处配置对应的 VPC、子网 和 安全组,以确保网络连通性。
API端点:输入您的模型服务完整的基础 URL,例如
https://api.example.com/v1。配置具体模型:填写您在调用时希望使用的模型名称,例如
my-private-llama。可选开启工具调用/视觉能力。凭证配置:选择使用已有凭证或API密钥来关联您的API 密钥。请确保凭证与所选的服务提供商相匹配,否则调用会失败。
单击创建模型。
网络与协议要求:
安全组需放通来自模型所在安全组的访问
服务必须严格遵循 OpenAI
/v1/chat/completions请求与响应格式。
部署开源模型
此方式允许您将指定的开源模型一键部署到阿里云函数计算 FunModel,获得一个私有的、可弹性伸缩的模型 API 服务。
在大语言模型管理页面,单击添加模型,然后选择一键部署。
选择要部署的模型和所需的计算资源:
开源模型:从支持的列表中选择一个模型。
部署配置:选择合适的 GPU 规格。部署会按函数计算 FC 的 Serverless GPU 资源使用时长计费。
如需访问第三方服务,添加凭证配置。
单击开始部署。部署过程通常需要 5-15 分钟。您可以在FunModel控制台查看详细的部署日志以排查部署过程中的问题。
模型列表常用操作
操作 | 说明 |
详情 | 查看模型 API 端点、支持的模型列表、调用示例等 |
编辑 | 修改凭证、默认参数等 |
删除 | 删除模型(需先解除所有模型代理绑定) |
模型详情页还提供 cURL / Python / Node.js 等调用模板,方便在本地或应用中直接对接后端模型。
配置模型代理
创建模型代理
在大语言模型管理页面点击模型代理。
模式选择:
代理模式:代理单个模型,适用于简单场景
负载模式:代理负载多个模型,按权重分配流量
配置基础信息:
名称:如
my-first-proxy、proxy-SOYTcS描述:简要说明用途
代理地区:如「华东 1(杭州)」
选择模型:
代理模式:在选择模型中选定一个已添加的大语言模型,再选择具体模型
负载模式:在模型管理添加多个模型卡片,每个卡片选择:
已配置的大语言模型
具体模型名
权重(如 50 / 50)
凭证配置(入站访问凭证):
决定客户端访问模型代理时的身份认证方式,可参考凭证管理进行创建。
选择推荐规格:
入门版(1 核 2G):个人 / 小流量
标准版(2 核 4G):中小企业
专业版(4 核 8G):高并发场景
点击开始部署,首次部署一般需要1-2分钟
部署完成后,在模型代理详情页可以看到:
运行模式(代理 / 负载)
API 端点
已绑定的模型列表与权重
访问凭证名称
高级配置
模型代理高级配置
在模型代理详情页点击 编辑治理,可配置以下策略(修改后动态生效):
基础策略
配置项 | 详细说明与决策建议 |
请求超时时间 | 作用:设置治理实例等待后端模型响应的最长时间,默认为600秒。超过该时间,治理实例将向客户端返回超时错误。 决策建议:对于响应较慢的模型(如大型生成模型),可适当调高此值。对于需要快速失败的场景,可适当调低。 |
重试机制 | 作用:当调用后端模型遇到临时性网络错误或服务端错误(如 HTTP 502, 503, 504)时,自动重新发起请求的次数,默认为3次。 决策建议:开启此功能可显著提升服务的稳定性。对于非幂等的请求,请谨慎开启。该机制不会对客户端错误(4xx)或速率限制(429)进行重试。 |
响应缓存 | 作用:开启后,治理实例会缓存相同请求的成功响应。当再次收到完全相同的请求时,直接返回缓存结果,无需调用后端模型。 决策建议:适合用于高频、内容固定(如 |
Fallbacks | 作用:配置一个备用模型。当主模型调用失败(例如超时、返回错误码)时,治理实例会自动将请求转发至备用模型。 决策建议:您可以设置一个高性能高成本模型作为主模型,一个低成本模型作为备用,实现服务降级保障。 |
并发控制 | 作用:限制能够同时处理的最大并发请求数。 决策建议:用于防止突发流量冲垮后端模型服务,特别是对于有严格速率限制的 API 模型或资源有限的部署模型。 |
扩展配置
配置项 | 说明 |
LiteLLM 版本 | 选择网关使用的 LiteLLM 版本,建议跟随控制台推荐的最新稳定版本。 |
VPC 网络配置 | 为模型代理指定专有网络,常用于调用 VPC 内自定义模型时的企业级安全场景。 |
调用模型代理与可观测性
如何调用模型代理
配置参数
在模型代理详情页的使用案例标签中,您可以看到已生成的调用示例。实际调用时,请按以下方式配置:
请求方法:
POST请求地址:
https://{模型代理域名}/models/{模型代理名称}/v1/chat/completions请求头(Headers):
x-acs-parent-id:当前阿里云账号 ID(控制台示例中会自动给出)X-API-Key:模型代理访问凭证名称,例如agentRun-apiContent-Type:application/json
请求体(Body)(与 OpenAI Chat Completions 兼容):
model:在该模型代理下配置的具体模型名称,例如qwen3-max、deepseek-r1messages:对话消息数组
调用示例
curl -X POST \ https://1836055070146700.agentrun-data.cn-hangzhou.aliyuncs.com/models/bailian-model/v1/chat/completions \ -H "x-acs-parent-id: 1836055070146700" \ -H "X-API-Key: agentRun-api" \ -H "Content-Type: application/json" \ -d '{ "model": "deepseek-r1", "messages": [ { "role": "user", "content": "写一个20字以内的诗文" } ] }'所有通过该代理端点发起的请求,都会被记录到 SLS,并在控制台可观测页展示相应指标。
如果直接调用后端 API 模型的原生端点(绕过模型代理),平台无法对这些请求进行统一观测和治理。
可观测能力说明
在模型代理详情页的可观测标签下,可查看:
调用量:今日 / 累计调用次数
响应性能:平均时延、最大时延、响应时间分布
错误统计:错误次数、错误率
调用趋势:支持按 1 小时 / 1 天 / 7 天 / 30 天查看调用波动
链路追踪:查看单次请求的完整链路,区分网关耗时与模型耗时
日志分析:基于 SLS 的原始日志查询,定位错误原因(
error_message、response_body等字段)
故障排查流程
当请求失败或性能异常时,可按以下顺序排查:
检查访问凭证
确认请求头中的 API Key 与模型代理绑定的入站凭证一致且未过期。检查模型配置与后端凭证
在大语言模型管理中查看对应模型,确认:API 端点正确可达
关联的服务商 API Key 有效、额度充足
通过可观测日志排查
在模型代理详情页的中过滤失败请求,重点查看:status_codeerror_messageresponse_body
分析链路追踪
确认性能问题是发生在网关(代理)还是后端模型,以便针对性优化。
使用规范与费用建议
配置规范
API 模型:服务提供商、API 端点与凭证需一一对应,避免因端点或 Key 误配导致 401 / 403 等错误。
部署模型:根据模型参数量、显存需求选择合适 GPU 规格,避免资源浪费或 OOM。
自定义模型:严格遵守 OpenAI API 规范;同时确保 VPC 网络与安全组配置允许模型代理访问目标服务。
费用说明与优化
资源类型 | 计费方式 | 优化建议 |
模型部署 | 函数计算 FC Serverless GPU 使用时长计费 | 选用贴合显存需求的 GPU 规格;按需启停、避免空转负载 |
模型代理 | 函数计算 FC CPU 使用时长计费 | 按流量选择入门/标准/专业规格,避免规格过大 |
日志服务 | SLS 日志存储量与查询量计费 | 合理设置日志保留周期与查询频率 |