大语言模型

大语言模型管理功能为您提供一个统一、高效的平台,用于接入、代理和观测多种来源的大语言模型。您可以将商业模型、开源模型或私有模型整合至同一工作流,并通过模型代理策略实现成本优化、性能提升和稳定性保障。

核心概念与整体架构

核心概念

  • 模型:对一个后端大模型服务的逻辑封装。它定义了模型的来源(API、部署或自定义)、访问凭证和基础配置。

  • 模型代理:一个部署在阿里云函数计算 FC上的高性能LLM网关,其核心基于开源项目 LiteLLM 构建。它为您的模型提供统一的访问入口,并执行您配置的路由、容灾和并发控制等高级策略。

  • 代理模式:一种单目标反向代理模式。此模式下的治理实例会绑定一个后端模型,所有请求都将直接转发至该模型。适用于简单、单一模型的应用场景。

  • 负载模式 :一种多目标负载均衡器。此模式下的治理实例可绑定多个后端模型,并根据轮询或加权策略分发请求。适用于需要组合使用多个模型以优化成本和性能的复杂场景。

系统架构与数据流

  1. 客户端/应用:通过 HTTP/HTTPS 调用「模型代理」暴露的 API 端点(统一 OpenAI / Chat Completions 兼容接口)。

  2. 模型代理:接收请求,根据您配置的代理模式或负载模式以及Fallbacks、重试机制等高级策略,决定将请求路由到哪个后端模型。

  3. 模型服务

    • API模型:请求被转发至外部服务商(如 OpenAI, Anthropic)的 API。

    • 自定义模型:请求被转发至您指定的、符合 OpenAI API 规范的私有模型服务。

    • 部署模型:请求被转发至您通过本平台部署在函数计算 Serverless GPU 上的开源模型。

  4. 可观测性 (日志服务 SLS):模型代理层收集所有请求的调用量、时延、错误信息,支持趋势分析、链路追踪、告警等。

模型接入指南

平台支持三种模型接入方式,以满足不同场景的需求。

接入 API 模型

适用于直接调用云端大模型服务,如 OpenAI、Anthropic、Google Gemini 等。

  1. 大语言模型管理页面,单击添加模型,然后选择API模型

  2. 配置模型信息:

    • 名称:为模型设置一个易于识别的唯一标识。

    • 描述:说明使用场景,便于团队协作。

    • 服务提供商:从下拉列表中选择模型所属的服务商。此选项会影响 API 调用的默认路径和格式。

    • API端点:填写模型服务的 Base URL(不包含具体的 API 路径)。平台会自动根据服务商类型拼接/chat/completions 等路径。

    • 配置具体模型:勾选或手动输入您需要使用的具体模型。

    • 凭证配置:选择使用已有凭证API密钥来关联您的API 密钥。请确保凭证与所选的服务提供商相匹配,否则调用会失败。

  3. 单击创建模型

说明
  • 至少选择 1 个具体模型才能创建成功

  • 服务提供商必须与凭证中配置的 API Key 相匹配,否则后续调用会失败

接入自定义模型

适用于接入您自行部署在VPC内或公网的、与 OpenAI API 规范兼容的任何模型服务。

  1. 大语言模型管理页面,单击添加模型模型类型选择API模型服务提供商选择自定义服务

  2. 配置模型信息:

    • VPC网络配置:如果您的模型部署在VPC内,请在此处配置对应的 VPC子网安全组,以确保网络连通性。

    • API端点:输入您的模型服务完整的基础 URL,例如 https://api.example.com/v1

    • 配置具体模型:填写您在调用时希望使用的模型名称,例如 my-private-llama。可选开启工具调用/视觉能力。

    • 凭证配置:选择使用已有凭证API密钥来关联您的API 密钥。请确保凭证与所选的服务提供商相匹配,否则调用会失败。

  3. 单击创建模型

网络与协议要求

  • 安全组需放通来自模型所在安全组的访问

  • 服务必须严格遵循 OpenAI /v1/chat/completions 请求与响应格式。

部署开源模型

此方式允许您将指定的开源模型一键部署到阿里云函数计算 FunModel,获得一个私有的、可弹性伸缩的模型 API 服务。

  1. 大语言模型管理页面,单击添加模型,然后选择一键部署

  2. 选择要部署的模型和所需的计算资源:

    • 开源模型:从支持的列表中选择一个模型。

    • 部署配置:选择合适的 GPU 规格。部署会按函数计算 FC 的 Serverless GPU 资源使用时长计费。

  3. 如需访问第三方服务,添加凭证配置

  4. 单击开始部署。部署过程通常需要 5-15 分钟。您可以在FunModel控制台查看详细的部署日志以排查部署过程中的问题。

模型列表常用操作

操作

说明

详情

查看模型 API 端点、支持的模型列表、调用示例等

编辑

修改凭证、默认参数等

删除

删除模型(需先解除所有模型代理绑定)

模型详情页还提供 cURL / Python / Node.js 等调用模板,方便在本地或应用中直接对接后端模型。

配置模型代理

创建模型代理

  1. 大语言模型管理页面点击模型代理

  2. 模式选择

    • 代理模式:代理单个模型,适用于简单场景

    • 负载模式:代理负载多个模型,按权重分配流量

  3. 配置基础信息:

    • 名称:如 my-first-proxyproxy-SOYTcS

    • 描述:简要说明用途

    • 代理地区:如「华东 1(杭州)」

  4. 选择模型:

    • 代理模式:在选择模型中选定一个已添加的大语言模型,再选择具体模型

    • 负载模式:在模型管理添加多个模型卡片,每个卡片选择:

      • 已配置的大语言模型

      • 具体模型名

      • 权重(如 50 / 50)

  5. 凭证配置(入站访问凭证):

    决定客户端访问模型代理时的身份认证方式,可参考凭证管理进行创建。

  6. 选择推荐规格

    • 入门版(1 核 2G):个人 / 小流量

    • 标准版(2 核 4G):中小企业

    • 专业版(4 核 8G):高并发场景

  7. 点击开始部署,首次部署一般需要1-2分钟

部署完成后,在模型代理详情页可以看到:

  • 运行模式(代理 / 负载)

  • API 端点

  • 已绑定的模型列表与权重

  • 访问凭证名称

  • 高级配置

模型代理高级配置

在模型代理详情页点击 编辑治理,可配置以下策略(修改后动态生效):

基础策略

配置项

详细说明与决策建议

请求超时时间

作用:设置治理实例等待后端模型响应的最长时间,默认为600秒。超过该时间,治理实例将向客户端返回超时错误。

决策建议:对于响应较慢的模型(如大型生成模型),可适当调高此值。对于需要快速失败的场景,可适当调低。

重试机制

作用:当调用后端模型遇到临时性网络错误或服务端错误(如 HTTP 502, 503, 504)时,自动重新发起请求的次数,默认为3次。

决策建议:开启此功能可显著提升服务的稳定性。对于非幂等的请求,请谨慎开启。该机制不会对客户端错误(4xx)或速率限制(429)进行重试。

响应缓存

作用:开启后,治理实例会缓存相同请求的成功响应。当再次收到完全相同的请求时,直接返回缓存结果,无需调用后端模型。

决策建议:适合用于高频、内容固定(如 temperature=0)的查询场景。缓存键基于 model, messages 等请求体核心字段生成,仅对非流式请求有效。

Fallbacks

作用:配置一个备用模型。当主模型调用失败(例如超时、返回错误码)时,治理实例会自动将请求转发至备用模型。

决策建议:您可以设置一个高性能高成本模型作为主模型,一个低成本模型作为备用,实现服务降级保障。

并发控制

作用:限制能够同时处理的最大并发请求数。

决策建议:用于防止突发流量冲垮后端模型服务,特别是对于有严格速率限制的 API 模型或资源有限的部署模型。

扩展配置

配置项

说明

LiteLLM 版本

选择网关使用的 LiteLLM 版本,建议跟随控制台推荐的最新稳定版本。

VPC 网络配置

为模型代理指定专有网络,常用于调用 VPC 内自定义模型时的企业级安全场景。

调用模型代理与可观测性

如何调用模型代理

  1. 配置参数

    在模型代理详情页的使用案例标签中,您可以看到已生成的调用示例。实际调用时,请按以下方式配置:

    • 请求方法POST

    • 请求地址
      https://{模型代理域名}/models/{模型代理名称}/v1/chat/completions

    • 请求头(Headers)

      • x-acs-parent-id:当前阿里云账号 ID(控制台示例中会自动给出)

      • X-API-Key:模型代理访问凭证名称,例如 agentRun-api

      • Content-Typeapplication/json

    • 请求体(Body)(与 OpenAI Chat Completions 兼容):

      • model:在该模型代理下配置的具体模型名称,例如 qwen3-maxdeepseek-r1

      • messages:对话消息数组

  2. 调用示例

    curl -X POST \
      https://1836055070146700.agentrun-data.cn-hangzhou.aliyuncs.com/models/bailian-model/v1/chat/completions \
      -H "x-acs-parent-id: 1836055070146700" \
      -H "X-API-Key: agentRun-api" \
      -H "Content-Type: application/json" \
      -d '{
        "model": "deepseek-r1",
        "messages": [
          { "role": "user", "content": "写一个20字以内的诗文" }
        ]
      }'

    所有通过该代理端点发起的请求,都会被记录到 SLS,并在控制台可观测页展示相应指标。

    如果直接调用后端 API 模型的原生端点(绕过模型代理),平台无法对这些请求进行统一观测和治理。

可观测能力说明

在模型代理详情页的可观测标签下,可查看:

  • 调用量:今日 / 累计调用次数

  • 响应性能:平均时延、最大时延、响应时间分布

  • 错误统计:错误次数、错误率

  • 调用趋势:支持按 1 小时 / 1 天 / 7 天 / 30 天查看调用波动

  • 链路追踪:查看单次请求的完整链路,区分网关耗时与模型耗时

  • 日志分析:基于 SLS 的原始日志查询,定位错误原因(error_messageresponse_body 等字段)

故障排查流程

当请求失败或性能异常时,可按以下顺序排查:

  1. 检查访问凭证
    确认请求头中的 API Key 与模型代理绑定的入站凭证一致且未过期。

  2. 检查模型配置与后端凭证
    大语言模型管理中查看对应模型,确认:

    • API 端点正确可达

    • 关联的服务商 API Key 有效、额度充足

  3. 通过可观测日志排查
    在模型代理详情页的可观测 > 日志分析中过滤失败请求,重点查看:

    • status_code

    • error_message

    • response_body

  4. 分析链路追踪
    确认性能问题是发生在网关(代理)还是后端模型,以便针对性优化。

使用规范与费用建议

配置规范

  • API 模型:服务提供商、API 端点与凭证需一一对应,避免因端点或 Key 误配导致 401 / 403 等错误。

  • 部署模型:根据模型参数量、显存需求选择合适 GPU 规格,避免资源浪费或 OOM。

  • 自定义模型:严格遵守 OpenAI API 规范;同时确保 VPC 网络与安全组配置允许模型代理访问目标服务。

费用说明与优化

资源类型

计费方式

优化建议

模型部署

函数计算 FC Serverless GPU 使用时长计费

选用贴合显存需求的 GPU 规格;按需启停、避免空转负载

模型代理

函数计算 FC CPU 使用时长计费

按流量选择入门/标准/专业规格,避免规格过大

日志服务

SLS 日志存储量与查询量计费

合理设置日志保留周期与查询频率