MaxCompute 模型计算服务是 MaxCompute 为满足客户使用大模型进行数据处理或离线推理提供的一种开箱即用、按量付费的新功能。本文介绍模型计算服务的计费规则。
功能介绍
MaxCompute 模型计算服务是 MaxCompute 提供的大模型推理能力,支持在 SQL/MaxFrame 作业中通过内置 AI Function 直接调用 MaxCompute 提供的开箱即用的模型。系统将根据实际用量如模型输入、模型输出Token量计费,用户按Token实际使用量付费。
支持地域:当前仅以下地域支持开通模型计算服务。
中国内地:华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)
国际:新加坡
支持模型:必须先在目标地域(如华北2-北京)开通模型计算服务,才可以使用如下模型。
qwen3.7-max:千问3.7系列旗舰模型,在推理、代码生成、多语言理解等方面全面升级,适用于高复杂度任务场景。qwen3-max(即将下线):千问系列高性能大语言模型,适用于复杂推理、内容生成等场景。text-embedding-v4:高精度文本向量化模型,适用于语义检索、聚类、相似度计算等场景。qwen3.6-plus:千问3.6系列均衡型模型,兼顾性能与成本,适用于对话、摘要、分析等通用业务场景。qwen3.6-flash:千问3.6系列轻量高速模型,响应速度快、成本低,适用于高并发、低延迟的在线服务场景。deepseek-v4-pro:DeepSeek第四代旗舰推理模型,擅长数学、代码、复杂逻辑推理等高难度任务场景。deepseek-v4-flash:DeepSeek第四代轻量模型,推理速度快、性价比高,适用于日常对话、轻量推理等场景。qwen3-vl-embedding:千问多模态向量化模型,支持图文混合输入的向量表示,适用于跨模态检索、图文匹配等场景。
目前仅分布式AI计算引擎MaxFrame、SQL作业通过AI Function使用上述公共模型时,会产生模型计算服务费用。仅成功作业计费,失败作业不产生模型计算服务费用。
计费规则
模型计算服务采用按 Token 用量计费,计费维度包括:
地域(Region)
模型类型(ModelName)
Token 类型(TokenType):含输入或输出Token,以及使用量所处的阶梯区间。
定价说明
单个SQL/MaxFrame作业可能存在多次模型调用,当使用的模型存在定价阶梯时,系统会独立统计每次模型调用时的输入Token数以判定计费阶梯(Token类型),不同Token类型的用量会分别统计和出账。
qwen3.7-max
中国内地
服务部署范围为中国区域时,模型推理计算资源仅限于中国内地;静态数据存储于所选地域。
支持地域:
华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)
单次推理输入 Token 数 | 使用场景 | Token 类型 | 单价(每百万Token) |
0<Token≤1048576 | 模型输入 |
| 14.4 元 |
模型输入 (命中隐式缓存) |
| 2.88 元 | |
模型输入 (命中显示缓存) |
| 1.44 元 | |
模型输入 (创建显示缓存) |
| 18 元 | |
模型输出(非思考) |
| 43.2 元 | |
模型输出(思考模式) |
| 43.2 元 |
国际
服务部署范围为国际区域时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于所选地域。
支持地域:新加坡
单次推理输入 Token 数 | 使用场景 | Token 类型 | 单价(每百万Token) |
0<Token≤1048576 | 模型输入 |
| 22.4832 元 |
模型输入 (命中隐式缓存) |
| 4.49664 元 | |
模型输入 (命中显示缓存) |
| 2.24832 元 | |
模型输入 (创建显示缓存) |
| 28.104 元 | |
模型输出(非思考) |
| 67.4484 元 | |
模型输出(思考模式) |
| 67.4484 元 |
text-embedding-v4模型
text-embedding-v4 仅产生模型输入Token费用,无模型输出费用,且不设阶梯,统一按 input_token_tier1 计费。
中国内地
服务部署范围为中国区域时,模型推理计算资源仅限于中国内地;静态数据存储于所选地域。
支持地域:
华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)
阶梯区间 | 使用场景 | Token 类型 | 单价(每百万Token) |
无阶梯 | 模型输入 |
| 0.6 元 |
国际
服务部署范围为国际区域时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于所选地域。
支持地域:新加坡
阶梯区间 | 使用场景 | Token 类型 | 单价(每百万Token) |
无阶梯 | 模型输入 |
| 0.6168 元 |
qwen3.6-plus
中国内地
服务部署范围为中国区域时,模型推理计算资源仅限于中国内地;静态数据存储于所选地域。
支持地域:
华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)
单次推理输入 Token 数 | 使用场景 | Token 类型 | 单价(每百万Token) |
0<Token≤262144 | 模型输入 |
| 2.4 元 |
模型输入 (命中隐式缓存) |
| 0.48 元 | |
模型输入 (命中显示缓存) |
| 0.24 元 | |
模型输入 (创建显示缓存) |
| 3 元 | |
模型输出(非思考) |
| 14.4 元 | |
模型输出(思考模式) |
| 14.4 元 | |
262144<Token≤1048576 | 模型输入 |
| 9.6 元 |
模型输入 (命中隐式缓存) |
| 1.92 元 | |
模型输入 (命中显示缓存) |
| 0.96 元 | |
模型输入 (创建显示缓存) |
| 12 元 | |
模型输出(非思考) |
| 57.6 元 | |
模型输出(思考模式) |
| 57.6 元 |
国际
服务部署范围为国际区域时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于所选地域。
支持地域:新加坡
单次推理输入 Token 数 | 使用场景 | Token 类型 | 单价(每百万Token) |
0<Token≤262144 | 模型输入 |
| 4.49652 元 |
模型输入 (命中隐式缓存) |
| 0.899304 元 | |
模型输入 (命中显示缓存) |
| 0.449652 元 | |
模型输入 (创建显示缓存) |
| 5.62065 元 | |
模型输出(非思考) |
| 26.97912 元 | |
模型输出(思考模式) |
| 26.97912 元 | |
262144<Token≤1048576 | 模型输入 |
| 17.98608 元 |
模型输入 (命中隐式缓存) |
| 3.597216 元 | |
模型输入 (命中显示缓存) |
| 1.798608 元 | |
模型输入 (创建显示缓存) |
| 22.4826 元 | |
模型输出(非思考) |
| 53.958 元 | |
模型输出(思考模式) |
| 53.958 元 |
qwen3.6-flash
中国内地
服务部署范围为中国区域时,模型推理计算资源仅限于中国内地;静态数据存储于所选地域。
支持地域:
华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)
单次推理输入 Token 数 | 使用场景 | Token 类型 | 单价(每百万Token) |
0<Token≤262144 | 模型输入 |
| 1.44 元 |
模型输入 (命中隐式缓存) |
| 0.288 元 | |
模型输入 (命中显示缓存) |
| 0.144 元 | |
模型输入 (创建显示缓存) |
| 1.8 元 | |
模型输出(非思考) |
| 8.64 元 | |
模型输出(思考模式) |
| 8.64 元 | |
262144<Token≤1048576 | 模型输入 |
| 5.76 元 |
模型输入 (命中隐式缓存) |
| 1.152 元 | |
模型输入 (命中显示缓存) |
| 0.576 元 | |
模型输入 (创建显示缓存) |
| 7.2 元 | |
模型输出(非思考) |
| 34.56 元 | |
模型输出(思考模式) |
| 34.56 元 |
国际
服务部署范围为国际区域时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于所选地域。
支持地域:新加坡
单次推理输入 Token 数 | 使用场景 | Token 类型 | 单价(每百万Token) |
0<Token≤262144 | 模型输入 |
| 2.24826 元 |
模型输入 (命中隐式缓存) |
| 0.449652 元 | |
模型输入 (命中显示缓存) |
| 0.224826 元 | |
模型输入 (创建显示缓存) |
| 2.810325 元 | |
模型输出(非思考) |
| 13.48956 元 | |
模型输出(思考模式) |
| 13.48956 元 | |
262144<Token≤1048576 | 模型输入 |
| 8.99304 元 |
模型输入 (命中隐式缓存) |
| 1.798608 元 | |
模型输入 (命中显示缓存) |
| 0.899304 元 | |
模型输入 (创建显示缓存) |
| 11.2413 元 | |
模型输出(非思考) |
| 35.97096 元 | |
模型输出(思考模式) |
| 35.97096 元 |
deepseek-v4-pro
中国内地
服务部署范围为中国区域时,模型推理计算资源仅限于中国内地;静态数据存储于所选地域。
支持地域:
华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)
阶梯区间 | 使用场景 | Token 类型 | 单价(每百万Token) |
无阶梯 | 模型输入 |
| 14.4 元 |
模型输入 (命中隐式缓存) |
| 2.88 元 | |
模型输入 (命中显示缓存) |
| 1.44 元 | |
模型输入 (创建显示缓存) |
| 18 元 | |
模型输出(非思考) |
| 28.8 元 | |
模型输出(思考模式) |
| 28.8 元 |
国际
服务部署范围为国际区域时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于所选地域。
支持地域:新加坡
单次推理输入 Token 数 | 使用场景 | Token 类型 | 单价(每百万Token) |
0<Token≤1048576 | 模型输入 |
| 21.5832 元 |
模型输入 (命中隐式缓存) |
| 4.31664 元 | |
模型输入 (命中显示缓存) |
| 2.15832 元 | |
模型输入 (创建显示缓存) |
| 26.979 元 | |
模型输出(非思考) |
| 43.1664 元 | |
模型输出(思考模式) |
| 43.1664 元 |
deepseek-v4-flash
中国内地
服务部署范围为中国区域时,模型推理计算资源仅限于中国内地;静态数据存储于所选地域。
支持地域:
华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)
阶梯区间 | 使用场景 | Token 类型 | 单价(每百万Token) |
无阶梯 | 模型输入 |
| 1.2 元 |
模型输入 (命中隐式缓存) |
| 0.24 元 | |
模型输入 (命中显示缓存) |
| 0.12 元 | |
模型输入 (创建显示缓存) |
| 1.5 元 | |
模型输出(非思考) |
| 2.4 元 | |
模型输出(思考模式) |
| 2.4 元 |
国际
服务部署范围为国际区域时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于所选地域。
支持地域:新加坡
阶梯区间 | 使用场景 | Token 类型 | 单价(每百万Token) |
0<Token≤1048576 | 模型输入 |
| 1.7988 元 |
模型输入 (命中隐式缓存) |
| 0.35976 元 | |
模型输入 (命中显示缓存) |
| 0.17988 元 | |
模型输入 (创建显示缓存) |
| 2.2485 元 | |
模型输出(非思考) |
| 3.5976 元 | |
模型输出(思考模式) |
| 3.5976 元 |
qwen3-vl-embedding
服务部署范围为中国区域时,模型推理计算资源仅限于中国内地;静态数据存储于所选地域。
支持地域:
华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)
地域 | 数据类型 | 使用场景 | 对应 Token 类型 | 单价(每百万Token) |
中国内地 | 文本 | 模型输入 |
| 0.84 元 |
图片&视频 | 模型输入 |
| 2.16 元 |
qwen3-max(即将下线)
中国内地
服务部署范围为中国区域时,模型推理计算资源仅限于中国内地;静态数据存储于所选地域。
支持地域:
华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)
单次推理输入 Token 数 | 使用场景 | 对应Token 类型 | 单价(每百万Token) |
0 < Token ≤ 32,768 | 模型输入 |
| 3 元 |
模型输入 (命中隐式缓存) |
| 0.6 元 | |
模型输入 (命中显示缓存) |
| 0.3 元 | |
模型输入 (创建显示缓存) |
| 3.75 元 | |
模型输出(非思考) |
| 12 元 | |
模型输出(思考模式) |
| 12 元 | |
32,768 < Token ≤ 131,072 | 模型输入 |
| 4.8 元 |
模型输入 (命中隐式缓存) |
| 0.96 元 | |
模型输入 (命中显示缓存) |
| 0.48 元 | |
模型输入 (创建显示缓存) |
| 6 元 | |
模型输出(非思考) |
| 19.2 元 | |
模型输出(思考模式) |
| 19.2 元 | |
131,072 < Token ≤ 258,048 | 模型输入 |
| 8.4 元 |
模型输入 (命中隐式缓存) |
| 1.68 元 | |
模型输入 (命中显示缓存) |
| 0.84 元 | |
模型输入 (创建显示缓存) |
| 10.5 元 | |
模型输出(非思考) |
| 33.6 元 | |
模型输出(思考模式) |
| 33.6 元 |
国际
服务部署范围为国际区域时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于所选地域。
支持地域:新加坡
单次推理输入 Token 数 | 使用场景 | 对应Token 类型 | 单价(每百万Token) |
0 < Token ≤ 32,768 | 模型输入 |
| 10.5684 元 |
模型输入 (命中隐式缓存) |
| 2.11368 元 | |
模型输入 (命中显示缓存) |
| 1.05684 元 | |
模型输入 (创建显示缓存) |
| 13.2105 元 | |
模型输出(非思考) |
| 52.842 元 | |
模型输出(思考模式) |
| 52.842 元 | |
32,768 < Token ≤ 131,072 | 模型输入 |
| 21.1368 元 |
模型输入 (命中隐式缓存) |
| 4.22736 元 | |
模型输入 (命中显示缓存) |
| 2.11368 元 | |
模型输入 (创建显示缓存) |
| 26.421 元 | |
模型输出(非思考) |
| 105.6852 元 | |
模型输出(思考模式) |
| 105.6852 元 | |
131,072 < Token ≤ 258,048 | 模型输入 |
| 26.4216 元 |
模型输入 (命中隐式缓存) |
| 5.28432 元 | |
模型输入 (命中显示缓存) |
| 2.64216 元 | |
模型输入 (创建显示缓存) |
| 33.027 元 | |
模型输出(非思考) |
| 132.1068 元 | |
模型输出(思考模式) |
| 132.1068 元 |
账单说明
出账频率:按小时出账
由于数据汇总需要,作业完成到推理费用账单产出通常存在数小时延迟,最终以阿里云费用中心为准。
账单查看路径
登录阿里云费用与成本控制台。
在左侧导航栏选择。
在账单详情页面,产品名称选择云原生大数据计算服务 MaxCompute,商品名称选择MaxCompute 模型计算服务,即可获取详细账单。
常见问题
Q:如何预估推理成本?
A:可使用上述定价表结合预期输入/输出长度估算。例如,若平均每次调用输入2K Token、输出 1K Token,每个作业需要使用qwen3-max模型执行1000次推理,则单作业的模型计算费用目录价约为 18元。Q:是否支持免费额度或试用?
A:当前模型计算服务为纯按量计费,无免费额度,建议先在小规模数据上测试,以验证效果并确定成本。Q:能否设置消费上限防止超额?
A:暂不支持设置用量上限,请结合账单合理控制使用量。