快速入门
本文档旨在引导您完成在 FunModel 平台部署模型及调用 API 的完整过程。您将了解如何选择和配置计算实例、管理服务凭证、发起推理请求以及进行基础的故障排查,从而帮助您将 FunModel 平台的 AI 模型能力集成到您的应用中。
准备工作
在开始之前,请确保您已拥有一个可用的阿里云账号,并已登录到FunModel控制台。
切换至新版控制台:如果当前为旧版,请单击页面右上角的 新版控制台。
完成授权:首次登录时,请根据页面指引完成 RAM 角色授权等配置。
部署并调用模型服务
以下步骤演示了如何将一个模型部署为在线服务,并进行调用。此流程同时适用于传统模型(如 OCR、语音识别)和大语言模型(LLM)。
步骤一:选择模型
在模型市场中,根据您的业务场景选择一个合适的模型。例如:
传统模型:
iic/cv_convnextTiny_ocr-recognition-general_damo(OCR 文字识别)。大语言模型 (LLM):
Qwen/Qwen3-8B(通义千问 8B 模型)。
步骤二(部分模型服务可选):模型快速体验
在正式部署前,通过快速体验功能验证模型效果是否符合预期。
选择所需的模型,进入模型详情页;
在快速体验区域,单击执行测试。系统将使用预置的测试数据执行一次推理;
在下方查看输出结果,判断模型功能是否满足您的需求。
步骤三:配置并部署模型
此步骤将模型部署为在线服务,您需要为其分配合适的计算资源。
在模型详情页,单击立即部署;
在弹出的配置页面,核心配置项是 实例类型 和 GPU规格。不同的规格决定了服务的性能和成本。实例类型的详细说明,可参考文档:实例类型和规格;
实例规格说明与选择建议:
实例类型
规格 (vCPU/内存/GPU)
适用场景
GPU基础型
4核 16 GB 8GB
传统模型功能验证、低频调用
GPU进阶型
8核 32GB 16GB
生产环境传统模型、轻量级 LLM
GPU性能型
8核 64GB 48GB
LLM 推理、图像生成等 GPU 密集型任务
GPU性能型(多卡)
16核 128GB 48GB*2
大规模 LLM 高性能推理
单击立即部署。等待服务部署完成,页面将自动跳转至服务详情页。
步骤四:调用模型服务
服务部署成功后,您可以通过以下两种方式与模型交互。
方式一:在线调用
此方式用于在控制台快速验证已部署服务的输入输出是否正常。
在服务详情页,单击在线调试页签;
系统会自动填充请求参数的示例。您可以根据需要修改;
单击发送请求;
在右侧的响应结果区域查看模型返回的结果。
方式二:API调用
此方式用于通过标准 HTTP 请求将模型能力集成到您的应用程序中。
获取服务凭证与端点
在发起API 调用前,您需要从模型详情页的获取两项关键信息:
API 端点:服务的专属访问 URL。
认证令牌 (Bearer Token):用于 API 调用的身份认证。
说明为保障服务安全,FunModel 推荐开启鉴权访问。
开启鉴权后,须在 HTTP 请求头中携带有效的
Authorization: Bearer <YOUR_TOKEN>,以防止服务被未授权访问。关闭鉴权意味着任何知道您服务 API 端点的人都可以调用。此操作存在安全风险,仅建议在受信任的内网环境中进行临时测试。构造并发送请求
FunModel 上的不同模型可能遵循不同的 API 规范。
大语言模型 (LLM) - 兼容 OpenAI API
FunModel 部署的大语言模型服务提供了与 OpenAI
v1/chat/completions接口兼容的API 端点,便于您迁移现有应用。以下是一个调用
Qwen/Qwen3-8B模型的curl示例。请将url和Authorization替换为您服务的实际信息。curl --request POST \ --url https://YOUR\_SERVICE\_URL/v1/chat/completions \ --header 'Authorization: Bearer YOUR_BEARER_TOKEN' \ --header 'content-type: application/json' \ --data '{ "model": "Qwen/Qwen3-8B", "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "你好,请介绍一下杭州。"} ], "stream": false, "temperature": 0.8, "max_tokens": 1024 }'关键请求参数说明:
参数
类型
是否必须
描述
modelstring
是
指定要调用的模型 ID,需与您部署的模型一致。
messagesarray
是
对话历史,包含
role和content。streamboolean
否
是否流式返回。默认为
false。temperaturefloat
否
控制生成文本的随机性,值在 0 到 2 之间。值越高,回答越具创意。
max_tokensinteger
否
控制单次生成内容的最大长度。
传统模型
传统模型的 API 格式通常更简单。以下是一个调用 OCR 模型的
curl示例。curl --request POST \ --url https://YOUR\_OCR\_SERVICE\_URL/ \ --header 'Authorization: Bearer YOUR_BEARER_TOKEN' \ --header 'content-type: application/json' \ --data '{"input":{"image":"http://modelscope.oss-cn-beijing.aliyuncs.com/demo/images/image\_ocr\_recognition.jpg"}}'
计费说明
FunModel 作为部署与管理平台不收取任何费用,但部署和调用服务会使用您账户下的其他云资源,并因此产生费用。这些费用将直接在您的阿里云账户中结算,主要包括:
函数计算 (FC) 费用: 模型运行的核心算力成本,根据您选择的实例规格和运行时长按量计费。
文件存储 (NAS) 费用: 模型文件存储在 NAS 中,根据占用的存储空间大小按量计费。
日志服务 (SLS) 费用: 服务日志会采集到 SLS 以供查询,按使用量计费。
为避免服务因云账户欠费而中断,建议您确保余额充足。相关云服务通常提供一定的免费额度,超出部分将按量计费。详情请查阅各云产品的官方定价说明。
故障排除
当遇到问题时,日志是定位问题的关键信息来源。请遵循“先查看日志,再定位问题”的原则。
部署失败
如果模型部署失败,请在模型详情页单击页签,查看详细错误信息。
OOMKilled(Out of Memory):内存或显存不足。通常发生在为大模型选择了过小的实例规格。请尝试升级到更高配置的实例。ImagePullBackoff/ErrImagePull:镜像拉取失败。请检查您的网络配置或联系技术支持。Download timeout:模型文件下载超时。通常是由于模型过大或网络波动导致,请尝试重新部署。
调用失败
如果模型服务 调用失败,请首先关注返回的 HTTP 状态码,并在模型详情页的日志中,根据请求 ID (
x-fc-request-id) 查找详细日志。403 Forbidden:认证失败。这通常表示您的 API Key (Bearer Token) 无效。请检查以下几点:Authorization请求头的格式是否正确,应为Bearer sk-xxxxxxxx。提供的
Bearer Token是否完整、正确,且未过期。检查响应体中的
Message字段,它会提供具体的失败原因,例如access denied due to invalid bearer token。
429 Too Many Requests:调用频率超出服务并发上限。请在服务的高级设置中增加实例数量,或优化您的调用逻辑。502 Bad Gateway/504 Gateway Timeout:后端服务错误或超时。请检查运行日志中是否有程序崩溃或推理超时的信息。
最佳实践
成本控制:部署前,建议通过“快速体验”功能验证模型效果,避免不必要的资源开销。对于计算密集型任务(如大模型推理),选择合适的性能型实例有助于平衡成本与效率。
性能监控:在服务详情页的 监控 页签,可关注“函数调用次数”、“函数执行时间”、“内存使用率”和“GPU 显存使用率”等核心指标。您也可以配置报警规则,以便及时发现和处理性能问题。
持续优化与配置调整:根据业务负载和监控数据,动态调整服务配置以平衡性能与成本。例如,增加实例数量以应对高并发,或升级实例规格以降低推理延迟。