MaxCompute 模型计算服务是 MaxCompute 为满足客户使用大模型进行数据处理或离线推理提供的一种开箱即用、按量付费的新功能。本文介绍模型计算服务的计费规则。
功能介绍
MaxCompute 模型计算服务是 MaxCompute 提供的大模型推理能力,支持在 SQL/MaxFrame 作业中通过内置 AI Function 直接调用 MaxCompute 提供的开箱即用的模型。系统将根据实际用量如模型输入、模型输出Token量计费,用户按Token实际使用量付费。
支持地域:当前仅以下地域支持开通模型计算服务。
华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)
支持模型:必须先在目标地域(如华北2-北京)开通模型计算服务,才可以使用如下模型。
qwen3-max:通义千问系列高性能大语言模型,适用于复杂推理、内容生成等场景。text-embedding-v4:高精度文本向量化模型,适用于语义检索、聚类、相似度计算等场景。
目前仅分布式AI计算引擎MaxFrame、SQL作业通过AI Function使用上述公共模型时,会产生模型计算服务费用。仅成功作业计费,失败作业不产生模型计算服务费用。
计费规则
模型计算服务采用按 Token 用量计费,计费维度包括:
地域(Region)
模型类型(ModelName)
Token 类型(TokenType):含输入或输出Token,以及使用量所处的阶梯区间。
定价说明
单个SQL/MaxFrame作业可能存在多次模型调用,当使用的模型存在定价阶梯时,系统会独立统计每次模型调用时的输入Token数以判定计费阶梯(Token类型),不同Token类型的用量会分别统计和出账。
qwen3-max模型
地域
单次推理输入 Token 数
使用场景
对应 Token 类型
单价(每百万Token)
中国地区
0 < Tokens ≤ 32,768
模型输入
input_token_tier13元
模型输出
output_token_tier112元
32,768 < Tokens ≤ 131,072
模型输入
input_token_tier24.8元
模型输出
output_token_tier219.2元
131,072 < Tokens ≤ 258,048
模型输入
input_token_tier38.4元
模型输出
output_token_tier333.6元
text-embedding-v4模型
text-embedding-v4仅产生模型输入Token费用,无模型输出费用,且不设阶梯,统一按input_token_tier1计费。地域
阶梯区间(单次输入 Token 数)
使用场景
对应 Token 类型
单价(每百万Token)
中国地区
无阶梯
模型输入
input_token_tier10.6元
账单说明
出账频率:按小时出账
由于数据汇总需要,作业完成到推理费用账单产出通常存在数小时延迟,最终以阿里云费用中心为准。
账单查看路径
登录阿里云费用与成本控制台。
在左侧导航栏选择。
在账单详情页面,产品名称选择云原生大数据计算服务 MaxCompute,商品名称选择MaxCompute 模型计算服务,即可获取详细账单。
常见问题
Q:如何预估推理成本?
A:可使用上述定价表结合预期输入/输出长度估算。例如,若平均每次调用输入2K Token、输出 1K Token,每个作业需要使用qwen3-max模型执行1000次推理,则单作业的模型计算费用目录价约为 18元。Q:是否支持免费额度或试用?
A:当前 模型计算服务为纯按量计费,无免费额度,建议先在小规模数据上测试,以验证效果并确定成本。Q:能否设置消费上限防止超额?
A:暂不支持设置用量上限,请结合账单合理控制使用量。