部署模型为在线服务后调用API-FunModel-阿里云

本文档旨在引导您完成在 FunModel 平台部署模型及调用 API 的完整过程。您将了解如何选择和配置计算实例、管理服务凭证、发起推理请求以及进行基础的故障排查，从而帮助您将 FunModel 平台的 AI 模型能力集成到您的应用中。

准备工作

在开始之前，请确保您已拥有一个可用的阿里云账号，并已登录到FunModel控制台。

切换至新版控制台：如果当前为旧版，请单击页面右上角的新版控制台。
完成授权：首次登录时，请根据页面指引完成 RAM 角色授权等配置。

部署并调用模型服务

以下步骤演示了如何将一个模型部署为在线服务，并进行调用。此流程同时适用于传统模型（如 OCR、语音识别）和大语言模型（LLM）。

步骤一：选择模型

在模型市场中，根据您的业务场景选择一个合适的模型。例如：

传统模型：iic/cv_convnextTiny_ocr-recognition-general_damo（OCR 文字识别）。
大语言模型 (LLM)：Qwen/Qwen3-8B（通义千问 8B 模型）。

步骤二（部分模型服务可选）：模型快速体验

在正式部署前，通过快速体验功能验证模型效果是否符合预期。

选择所需的模型，进入模型详情页；
在快速体验区域，单击执行测试。系统将使用预置的测试数据执行一次推理；
在下方查看输出结果，判断模型功能是否满足您的需求。

步骤三：配置并部署模型

此步骤将模型部署为在线服务，您需要为其分配合适的计算资源。

在模型详情页，单击立即部署；

在弹出的配置页面，核心配置项是 实例类型 和 GPU规格。不同的规格决定了服务的性能和成本。实例类型的详细说明，可参考文档：实例类型和规格；

实例规格说明与选择建议：

实例类型	规格 (vCPU/内存/GPU)	适用场景
GPU基础型	4核 16 GB 8GB	传统模型功能验证、低频调用
GPU进阶型	8核 32GB 16GB	生产环境传统模型、轻量级 LLM
GPU性能型	8核 64GB 48GB	LLM 推理、图像生成等 GPU 密集型任务
GPU性能型（多卡）	16核 128GB 48GB*2	大规模 LLM 高性能推理

单击立即部署。等待服务部署完成，页面将自动跳转至服务详情页。

步骤四：调用模型服务

服务部署成功后，您可以通过以下两种方式与模型交互。

方式一：在线调用

此方式用于在控制台快速验证已部署服务的输入输出是否正常。

在服务详情页，单击在线调试页签；
系统会自动填充请求参数的示例。您可以根据需要修改；
单击发送请求；
在右侧的响应结果区域查看模型返回的结果。

方式二：API调用

此方式用于通过标准 HTTP 请求将模型能力集成到您的应用程序中。

获取服务凭证与端点
在发起API 调用前，您需要从模型详情页的概览 > 访问信息获取两项关键信息：
- API 端点：服务的专属访问 URL。
- 认证令牌 (Bearer Token)：用于 API 调用的身份认证。
说明
为保障服务安全，FunModel 推荐开启鉴权访问。
开启鉴权后，须在 HTTP 请求头中携带有效的 Authorization: Bearer <YOUR_TOKEN>，以防止服务被未授权访问。关闭鉴权意味着任何知道您服务 API 端点的人都可以调用。此操作存在安全风险，仅建议在受信任的内网环境中进行临时测试。

构造并发送请求

FunModel 上的不同模型可能遵循不同的 API 规范。

大语言模型 (LLM) - 兼容 OpenAI API

FunModel 部署的大语言模型服务提供了与 OpenAI v1/chat/completions 接口兼容的API 端点，便于您迁移现有应用。

以下是一个调用 Qwen/Qwen3-8B 模型的 curl 示例。请将 url 和 Authorization 替换为您服务的实际信息。

curl --request POST \
  --url https://YOUR\_SERVICE\_URL/v1/chat/completions \
  --header 'Authorization: Bearer YOUR_BEARER_TOKEN' \
  --header 'content-type: application/json' \
  --data '{
    "model": "Qwen/Qwen3-8B",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "你好，请介绍一下杭州。"}
    ],
    "stream": false,
    "temperature": 0.8,
    "max_tokens": 1024
  }'

关键请求参数说明：

参数	类型	是否必须	描述
`model`	string	是	指定要调用的模型 ID，需与您部署的模型一致。
`messages`	array	是	对话历史，包含 `role` 和 `content`。
`stream`	boolean	否	是否流式返回。默认为 `false`。
`temperature`	float	否	控制生成文本的随机性，值在 0 到 2 之间。值越高，回答越具创意。
`max_tokens`	integer	否	控制单次生成内容的最大长度。

传统模型

传统模型的 API 格式通常更简单。以下是一个调用 OCR 模型的 curl 示例。

curl --request POST \
  --url https://YOUR\_OCR\_SERVICE\_URL/ \
  --header 'Authorization: Bearer YOUR_BEARER_TOKEN' \
  --header 'content-type: application/json' \
  --data '{"input":{"image":"http://modelscope.oss-cn-beijing.aliyuncs.com/demo/images/image\_ocr\_recognition.jpg"}}'

计费说明

FunModel 作为部署与管理平台不收取任何费用，但部署和调用服务会使用您账户下的其他云资源，并因此产生费用。这些费用将直接在您的阿里云账户中结算，主要包括：

函数计算 (FC) 费用：模型运行的核心算力成本，根据您选择的实例规格和运行时长按量计费。
文件存储 (NAS) 费用：模型文件存储在 NAS 中，根据占用的存储空间大小按量计费。
日志服务 (SLS) 费用：服务日志会采集到 SLS 以供查询，按使用量计费。

为避免服务因云账户欠费而中断，建议您确保余额充足。相关云服务通常提供一定的免费额度，超出部分将按量计费。详情请查阅各云产品的官方定价说明。

故障排除

当遇到问题时，日志是定位问题的关键信息来源。请遵循“先查看日志，再定位问题”的原则。

部署失败
如果模型部署失败，请在模型详情页单击操作记录 > 查看详情页签，查看详细错误信息。
- OOMKilled (Out of Memory)：内存或显存不足。通常发生在为大模型选择了过小的实例规格。请尝试升级到更高配置的实例。
- ImagePullBackoff / ErrImagePull：镜像拉取失败。请检查您的网络配置或联系技术支持。
- Download timeout：模型文件下载超时。通常是由于模型过大或网络波动导致，请尝试重新部署。
调用失败
如果模型服务调用失败，请首先关注返回的 HTTP 状态码，并在模型详情页的日志中，根据请求 ID (x-fc-request-id) 查找详细日志。
- 403 Forbidden：认证失败。这通常表示您的 API Key (Bearer Token) 无效。请检查以下几点：
  - Authorization 请求头的格式是否正确，应为 Bearer sk-xxxxxxxx。
  - 提供的 Bearer Token 是否完整、正确，且未过期。
  - 检查响应体中的 Message 字段，它会提供具体的失败原因，例如 access denied due to invalid bearer token。
- 429 Too Many Requests：调用频率超出服务并发上限。请在服务的高级设置中增加实例数量，或优化您的调用逻辑。
- 502 Bad Gateway / 504 Gateway Timeout：后端服务错误或超时。请检查运行日志中是否有程序崩溃或推理超时的信息。

最佳实践

成本控制：部署前，建议通过“快速体验”功能验证模型效果，避免不必要的资源开销。对于计算密集型任务（如大模型推理），选择合适的性能型实例有助于平衡成本与效率。
性能监控：在服务详情页的监控页签，可关注“函数调用次数”、“函数执行时间”、“内存使用率”和“GPU 显存使用率”等核心指标。您也可以配置报警规则，以便及时发现和处理性能问题。
持续优化与配置调整：根据业务负载和监控数据，动态调整服务配置以平衡性能与成本。例如，增加实例数量以应对高并发，或升级实例规格以降低推理延迟。

上一篇: 模型服务FunModel 下一篇: 自定义模型部署