快速入门

更新时间: 2025-11-19 14:14:21

本文档旨在引导您完成在 FunModel 平台部署模型及调用 API 的完整过程。您将了解如何选择和配置计算实例、管理服务凭证、发起推理请求以及进行基础的故障排查,从而帮助您将 FunModel 平台的 AI 模型能力集成到您的应用中。

准备工作

在开始之前,请确保您已拥有一个可用的阿里云账号,并已登录到FunModel控制台

  1. 切换至新版控制台:如果当前为旧版,请单击页面右上角的 新版控制台。

  2. 完成授权:首次登录时,请根据页面指引完成 RAM 角色授权等配置。

部署并调用模型服务

以下步骤演示了如何将一个模型部署为在线服务,并进行调用。此流程同时适用于传统模型(如 OCR、语音识别)和大语言模型(LLM)。

步骤一:选择模型

模型市场根据您的业务场景选择一个合适的模型。例如:

  • 传统模型:iic/cv_convnextTiny_ocr-recognition-general_damo(OCR 文字识别)。

  • 大语言模型 (LLM):Qwen/Qwen3-8B(通义千问 8B 模型)。

步骤二(部分模型服务可选):模型快速体验

在正式部署前,通过快速体验功能验证模型效果是否符合预期。

  1. 选择所需的模型,进入模型详情页;

  2. 快速体验区域,单击执行测试。系统将使用预置的测试数据执行一次推理;

  3. 在下方查看输出结果,判断模型功能是否满足您的需求。

步骤三:配置并部署模型

此步骤将模型部署为在线服务,您需要为其分配合适的计算资源。

  1. 模型详情页,单击立即部署

  2. 在弹出的配置页面,核心配置项是 实例类型 GPU规格。不同的规格决定了服务的性能和成本。实例类型的详细说明,可参考文档:实例类型和规格

    实例规格说明与选择建议:

    实例类型

    规格 (vCPU/内存/GPU)

    适用场景

    GPU基础型

    4核 16 GB 8GB

    传统模型功能验证、低频调用

    GPU进阶型

    8核 32GB 16GB

    生产环境传统模型、轻量级 LLM

    GPU性能型

    8核 64GB 48GB

    LLM 推理、图像生成等 GPU 密集型任务

    GPU性能型(多卡)

    16核 128GB 48GB*2

    大规模 LLM 高性能推理

  3. 单击立即部署。等待服务部署完成,页面将自动跳转至服务详情页。

步骤四:调用模型服务

服务部署成功后,您可以通过以下两种方式与模型交互。

方式一:在线调用

此方式用于在控制台快速验证已部署服务的输入输出是否正常。

  1. 在服务详情页,单击在线调试页签;

  2. 系统会自动填充请求参数的示例。您可以根据需要修改;

  3. 单击发送请求

  4. 在右侧的响应结果区域查看模型返回的结果。

方式二:API调用

此方式用于通过标准 HTTP 请求将模型能力集成到您的应用程序中。

  1. 获取服务凭证与端点

    在发起API 调用前,您需要从模型详情页的概览 > 访问信息获取两项关键信息:

    • API 端点:服务的专属访问 URL。

    • 认证令牌 (Bearer Token):用于 API 调用的身份认证。

    说明

    为保障服务安全,FunModel 推荐开启鉴权访问。

    开启鉴权后,须在 HTTP 请求头中携带有效的 Authorization: Bearer <YOUR_TOKEN>,以防止服务被未授权访问。关闭鉴权意味着任何知道您服务 API 端点的人都可以调用。此操作存在安全风险,仅建议在受信任的内网环境中进行临时测试。

  2. 构造并发送请求

    FunModel 上的不同模型可能遵循不同的 API 规范。

    • 大语言模型 (LLM) - 兼容 OpenAI API

      FunModel 部署的大语言模型服务提供了与 OpenAI v1/chat/completions 接口兼容的API 端点,便于您迁移现有应用。

      以下是一个调用 Qwen/Qwen3-8B 模型的 curl 示例。请将 urlAuthorization 替换为您服务的实际信息。

      curl --request POST \
        --url https://YOUR\_SERVICE\_URL/v1/chat/completions \
        --header 'Authorization: Bearer YOUR_BEARER_TOKEN' \
        --header 'content-type: application/json' \
        --data '{
          "model": "Qwen/Qwen3-8B",
          "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": "你好,请介绍一下杭州。"}
          ],
          "stream": false,
          "temperature": 0.8,
          "max_tokens": 1024
        }'
      

      关键请求参数说明:

      参数

      类型

      是否必须

      描述

      model

      string

      指定要调用的模型 ID,需与您部署的模型一致。

      messages

      array

      对话历史,包含 rolecontent

      stream

      boolean

      是否流式返回。默认为 false

      temperature

      float

      控制生成文本的随机性,值在 0 到 2 之间。值越高,回答越具创意。

      max_tokens

      integer

      控制单次生成内容的最大长度。

    • 传统模型

      传统模型的 API 格式通常更简单。以下是一个调用 OCR 模型的 curl 示例。

      curl --request POST \
        --url https://YOUR\_OCR\_SERVICE\_URL/ \
        --header 'Authorization: Bearer YOUR_BEARER_TOKEN' \
        --header 'content-type: application/json' \
        --data '{"input":{"image":"http://modelscope.oss-cn-beijing.aliyuncs.com/demo/images/image\_ocr\_recognition.jpg"}}'

计费说明

FunModel 作为部署与管理平台不收取任何费用,但部署和调用服务会使用您账户下的其他云资源,并因此产生费用。这些费用将直接在您的阿里云账户中结算,主要包括:

  • 函数计算 (FC) 费用: 模型运行的核心算力成本,根据您选择的实例规格和运行时长按量计费。

  • 文件存储 (NAS) 费用: 模型文件存储在 NAS 中,根据占用的存储空间大小按量计费。

  • 日志服务 (SLS) 费用: 服务日志会采集到 SLS 以供查询,按使用量计费。

为避免服务因云账户欠费而中断,建议您确保余额充足。相关云服务通常提供一定的免费额度,超出部分将按量计费。详情请查阅各云产品的官方定价说明。

故障排除

当遇到问题时,日志是定位问题的关键信息来源。请遵循“先查看日志,再定位问题”的原则。

  • 部署失败

    如果模型部署失败,请在模型详情页单击操作记录 > 查看详情页签,查看详细错误信息。

    • OOMKilled (Out of Memory):内存或显存不足。通常发生在为大模型选择了过小的实例规格。请尝试升级到更高配置的实例。

    • ImagePullBackoff / ErrImagePull:镜像拉取失败。请检查您的网络配置或联系技术支持。

    • Download timeout:模型文件下载超时。通常是由于模型过大或网络波动导致,请尝试重新部署。

  • 调用失败

    如果模型服务 调用失败,请首先关注返回的 HTTP 状态码,并在模型详情页的日志中,根据请求 ID (x-fc-request-id) 查找详细日志。

    • 403 Forbidden:认证失败。这通常表示您的 API Key (Bearer Token) 无效。请检查以下几点:

      • Authorization 请求头的格式是否正确,应为 Bearer sk-xxxxxxxx

      • 提供的 Bearer Token 是否完整、正确,且未过期。

      • 检查响应体中的 Message 字段,它会提供具体的失败原因,例如 access denied due to invalid bearer token

    • 429 Too Many Requests:调用频率超出服务并发上限。请在服务的高级设置中增加实例数量,或优化您的调用逻辑。

    • 502 Bad Gateway / 504 Gateway Timeout:后端服务错误或超时。请检查运行日志中是否有程序崩溃或推理超时的信息。

最佳实践

  • 成本控制:部署前,建议通过“快速体验”功能验证模型效果,避免不必要的资源开销。对于计算密集型任务(如大模型推理),选择合适的性能型实例有助于平衡成本与效率。

  • 性能监控:在服务详情页的 监控 页签,可关注“函数调用次数”、“函数执行时间”、“内存使用率”和“GPU 显存使用率”等核心指标。您也可以配置报警规则,以便及时发现和处理性能问题。

  • 持续优化与配置调整:根据业务负载和监控数据,动态调整服务配置以平衡性能与成本。例如,增加实例数量以应对高并发,或升级实例规格以降低推理延迟。

上一篇: 模型服务FunModel 下一篇: 自定义模型部署