模型计算费用(Token费用)

更新时间:
复制 MD 格式

MaxCompute 模型计算服务是 MaxCompute 为满足客户使用大模型进行数据处理或离线推理提供的一种开箱即用、按量付费的新功能。本文介绍模型计算服务的计费规则。

功能介绍

MaxCompute 模型计算服务是 MaxCompute 提供的大模型推理能力,支持在 SQL/MaxFrame 作业中通过内置 AI Function 直接调用 MaxCompute 提供的开箱即用的模型。系统将根据实际用量如模型输入、模型输出Token量计费,用户按Token实际使用量付费。

  • 支持地域:当前仅以下地域支持开通模型计算服务。

    • 中国内地:华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)

    • 国际:新加坡

  • 支持模型:必须先在目标地域(如华北2-北京)开通模型计算服务,才可以使用如下模型。

    • qwen3.7-max:千问3.7系列旗舰模型,在推理、代码生成、多语言理解等方面全面升级,适用于高复杂度任务场景。

    • qwen3-max(即将下线):千问系列高性能大语言模型,适用于复杂推理、内容生成等场景。

    • text-embedding-v4:高精度文本向量化模型,适用于语义检索、聚类、相似度计算等场景。

    • qwen3.6-plus:千问3.6系列均衡型模型,兼顾性能与成本,适用于对话、摘要、分析等通用业务场景。

    • qwen3.6-flash:千问3.6系列轻量高速模型,响应速度快、成本低,适用于高并发、低延迟的在线服务场景。

    • deepseek-v4-pro:DeepSeek第四代旗舰推理模型,擅长数学、代码、复杂逻辑推理等高难度任务场景。

    • deepseek-v4-flash:DeepSeek第四代轻量模型,推理速度快、性价比高,适用于日常对话、轻量推理等场景。

    • qwen3-vl-embedding:千问多模态向量化模型,支持图文混合输入的向量表示,适用于跨模态检索、图文匹配等场景。

说明

目前仅分布式AI计算引擎MaxFrameSQL作业通过AI Function使用上述公共模型时,会产生模型计算服务费用。仅成功作业计费,失败作业不产生模型计算服务费用。

计费规则

模型计算服务采用按 Token 用量计费,计费维度包括:

  • 地域(Region)

  • 模型类型(ModelName)

  • Token 类型(TokenType):含输入或输出Token,以及使用量所处的阶梯区间。

定价说明

单个SQL/MaxFrame作业可能存在多次模型调用,当使用的模型存在定价阶梯时,系统会独立统计每次模型调用时的输入Token数以判定计费阶梯(Token类型),不同Token类型的用量会分别统计和出账。

重要
  • 服务部署范围为中国区域时,模型推理计算资源仅限于中国内地;静态数据存储于所选地域。

  • 服务部署范围为国际区域时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于所选地域。

qwen3.7-max

中国内地

服务部署范围为中国区域时,模型推理计算资源仅限于中国内地;静态数据存储于所选地域。

支持地域

华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)

单次推理输入 Token 数

使用场景

Token 类型

单价(每百万Token)

0<Token≤1048576

模型输入

input_token_tier1

14.4 元

模型输入

(命中隐式缓存)

input_token_tier1_cached

2.88 元

模型输入

(命中显示缓存)

input_token_tier1_cached_explicit

1.44 元

模型输入

(创建显示缓存)

input_token_tier1_create_cache

18 元

模型输出(非思考)

output_token_tier1

43.2 元

模型输出(思考模式)

output_token_tier1_thinking

43.2 元

国际

服务部署范围为国际区域时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于所选地域。

支持地域:新加坡

单次推理输入 Token 数

使用场景

Token 类型

单价(每百万Token)

0<Token≤1048576

模型输入

input_token_tier1

22.4832 元

模型输入

(命中隐式缓存)

input_token_tier1_cached

4.49664 元

模型输入

(命中显示缓存)

input_token_tier1_cached_explicit

2.24832 元

模型输入

(创建显示缓存)

input_token_tier1_create_cache

28.104 元

模型输出(非思考)

output_token_tier1

67.4484 元

模型输出(思考模式)

output_token_tier1_thinking

67.4484 元

text-embedding-v4模型

text-embedding-v4 仅产生模型输入Token费用,无模型输出费用,且不设阶梯,统一按 input_token_tier1 计费。

中国内地

服务部署范围为中国区域时,模型推理计算资源仅限于中国内地;静态数据存储于所选地域。

支持地域

华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)

阶梯区间

使用场景

Token 类型

单价(每百万Token)

无阶梯

模型输入

input_token_tier1

0.6 元

国际

服务部署范围为国际区域时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于所选地域。

支持地域:新加坡

阶梯区间

使用场景

Token 类型

单价(每百万Token)

无阶梯

模型输入

input_token_tier1

0.6168 元

qwen3.6-plus

中国内地

服务部署范围为中国区域时,模型推理计算资源仅限于中国内地;静态数据存储于所选地域。

支持地域

华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)

单次推理输入 Token 数

使用场景

Token 类型

单价(每百万Token)

0<Token≤262144

模型输入

input_token_tier1

2.4 元

模型输入

(命中隐式缓存)

input_token_tier1_cached

0.48 元

模型输入

(命中显示缓存)

input_token_tier1_cached_explicit

0.24 元

模型输入

(创建显示缓存)

input_token_tier1_create_cache

3 元

模型输出(非思考)

output_token_tier1

14.4 元

模型输出(思考模式)

output_token_tier1_thinking

14.4 元

262144<Token≤1048576

模型输入

input_token_tier2

9.6 元

模型输入

(命中隐式缓存)

input_token_tier2_cached

1.92 元

模型输入

(命中显示缓存)

input_token_tier2_cached_explicit

0.96 元

模型输入

(创建显示缓存)

input_token_tier2_create_cache

12 元

模型输出(非思考)

output_token_tier2

57.6 元

模型输出(思考模式)

output_token_tier2_thinking

57.6 元

国际

服务部署范围为国际区域时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于所选地域。

支持地域:新加坡

单次推理输入 Token 数

使用场景

Token 类型

单价(每百万Token)

0<Token≤262144

模型输入

input_token_tier1

4.49652 元

模型输入

(命中隐式缓存)

input_token_tier1_cached

0.899304 元

模型输入

(命中显示缓存)

input_token_tier1_cached_explicit

0.449652 元

模型输入

(创建显示缓存)

input_token_tier1_create_cache

5.62065 元

模型输出(非思考)

output_token_tier1

26.97912 元

模型输出(思考模式)

output_token_tier1_thinking

26.97912 元

262144<Token≤1048576

模型输入

input_token_tier2

17.98608 元

模型输入

(命中隐式缓存)

input_token_tier2_cached

3.597216 元

模型输入

(命中显示缓存)

input_token_tier2_cached_explicit

1.798608 元

模型输入

(创建显示缓存)

input_token_tier2_create_cache

22.4826 元

模型输出(非思考)

output_token_tier2

53.958 元

模型输出(思考模式)

output_token_tier2_thinking

53.958 元

qwen3.6-flash

中国内地

服务部署范围为中国区域时,模型推理计算资源仅限于中国内地;静态数据存储于所选地域。

支持地域

华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)

单次推理输入 Token 数

使用场景

Token 类型

单价(每百万Token)

0<Token≤262144

模型输入

input_token_tier1

1.44 元

模型输入

(命中隐式缓存)

input_token_tier1_cached

0.288 元

模型输入

(命中显示缓存)

input_token_tier1_cached_explicit

0.144 元

模型输入

(创建显示缓存)

input_token_tier1_create_cache

1.8 元

模型输出(非思考)

output_token_tier1

8.64 元

模型输出(思考模式)

output_token_tier1_thinking

8.64 元

262144<Token≤1048576

模型输入

input_token_tier2

5.76 元

模型输入

(命中隐式缓存)

input_token_tier2_cached

1.152 元

模型输入

(命中显示缓存)

input_token_tier2_cached_explicit

0.576 元

模型输入

(创建显示缓存)

input_token_tier2_create_cache

7.2 元

模型输出(非思考)

output_token_tier2

34.56 元

模型输出(思考模式)

output_token_tier2_thinking

34.56 元

国际

服务部署范围为国际区域时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于所选地域。

支持地域:新加坡

单次推理输入 Token 数

使用场景

Token 类型

单价(每百万Token)

0<Token≤262144

模型输入

input_token_tier1

2.24826 元

模型输入

(命中隐式缓存)

input_token_tier1_cached

0.449652 元

模型输入

(命中显示缓存)

input_token_tier1_cached_explicit

0.224826 元

模型输入

(创建显示缓存)

input_token_tier1_create_cache

2.810325 元

模型输出(非思考)

output_token_tier1

13.48956 元

模型输出(思考模式)

output_token_tier1_thinking

13.48956 元

262144<Token≤1048576

模型输入

input_token_tier2

8.99304 元

模型输入

(命中隐式缓存)

input_token_tier2_cached

1.798608 元

模型输入

(命中显示缓存)

input_token_tier2_cached_explicit

0.899304 元

模型输入

(创建显示缓存)

input_token_tier2_create_cache

11.2413 元

模型输出(非思考)

output_token_tier2

35.97096 元

模型输出(思考模式)

output_token_tier2_thinking

35.97096 元

deepseek-v4-pro

中国内地

服务部署范围为中国区域时,模型推理计算资源仅限于中国内地;静态数据存储于所选地域。

支持地域

华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)

阶梯区间

使用场景

Token 类型

单价(每百万Token)

无阶梯

模型输入

input_token_tier1

14.4 元

模型输入

(命中隐式缓存)

input_token_tier1_cached

2.88 元

模型输入

(命中显示缓存)

input_token_tier1_cached_explicit

1.44 元

模型输入

(创建显示缓存)

input_token_tier1_create_cache

18 元

模型输出(非思考)

output_token_tier1

28.8 元

模型输出(思考模式)

output_token_tier1_thinking

28.8 元

国际

服务部署范围为国际区域时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于所选地域。

支持地域:新加坡

单次推理输入 Token 数

使用场景

Token 类型

单价(每百万Token)

0<Token≤1048576

模型输入

input_token_tier1

21.5832 元

模型输入

(命中隐式缓存)

input_token_tier1_cached

4.31664 元

模型输入

(命中显示缓存)

input_token_tier1_cached_explicit

2.15832 元

模型输入

(创建显示缓存)

input_token_tier1_create_cache

26.979 元

模型输出(非思考)

output_token_tier1

43.1664 元

模型输出(思考模式)

output_token_tier1_thinking

43.1664 元

deepseek-v4-flash

中国内地

服务部署范围为中国区域时,模型推理计算资源仅限于中国内地;静态数据存储于所选地域。

支持地域

华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)

阶梯区间

使用场景

Token 类型

单价(每百万Token)

无阶梯

模型输入

input_token_tier1

1.2 元

模型输入

(命中隐式缓存)

input_token_tier1_cached

0.24 元

模型输入

(命中显示缓存)

input_token_tier1_cached_explicit

0.12 元

模型输入

(创建显示缓存)

input_token_tier1_create_cache

1.5 元

模型输出(非思考)

output_token_tier1

2.4 元

模型输出(思考模式)

output_token_tier1_thinking

2.4 元

国际

服务部署范围为国际区域时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于所选地域。

支持地域:新加坡

阶梯区间

使用场景

Token 类型

单价(每百万Token)

0<Token≤1048576

模型输入

input_token_tier1

1.7988 元

模型输入

(命中隐式缓存)

input_token_tier1_cached

0.35976 元

模型输入

(命中显示缓存)

input_token_tier1_cached_explicit

0.17988 元

模型输入

(创建显示缓存)

input_token_tier1_create_cache

2.2485 元

模型输出(非思考)

output_token_tier1

3.5976 元

模型输出(思考模式)

output_token_tier1_thinking

3.5976 元

qwen3-vl-embedding

服务部署范围为中国区域时,模型推理计算资源仅限于中国内地;静态数据存储于所选地域。

支持地域

华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)

地域

数据类型

使用场景

对应 Token 类型

单价(每百万Token)

中国内地

文本

模型输入

input_token_tier1_text

0.84 元

图片&视频

模型输入

input_token_tier1_image

2.16 元

qwen3-max(即将下线)

中国内地

服务部署范围为中国区域时,模型推理计算资源仅限于中国内地;静态数据存储于所选地域。

支持地域

华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北6(乌兰察布)

单次推理输入 Token 数

使用场景

对应Token 类型

单价(每百万Token)

0 < Token ≤ 32,768

模型输入

input_token_tier1

3 元

模型输入

(命中隐式缓存)

input_token_tier1_cached

0.6 元

模型输入

(命中显示缓存)

input_token_tier1_cached_explicit

0.3 元

模型输入

(创建显示缓存)

input_token_tier1_create_cache

3.75 元

模型输出(非思考)

output_token_tier1

12 元

模型输出(思考模式)

output_token_tier1_thinking

12 元

32,768 < Token ≤ 131,072

模型输入

input_token_tier2

4.8 元

模型输入

(命中隐式缓存)

input_token_tier2_cached

0.96 元

模型输入

(命中显示缓存)

input_token_tier2_cached_explicit

0.48 元

模型输入

(创建显示缓存)

input_token_tier2_create_cache

6 元

模型输出(非思考)

output_token_tier2

19.2 元

模型输出(思考模式)

output_token_tier2_thinking

19.2 元

131,072 < Token ≤ 258,048

模型输入

input_token_tier3

8.4 元

模型输入

(命中隐式缓存)

input_token_tier3_cached

1.68 元

模型输入

(命中显示缓存)

input_token_tier3_cached_explicit

0.84 元

模型输入

(创建显示缓存)

input_token_tier3_create_cache

10.5 元

模型输出(非思考)

output_token_tier3

33.6 元

模型输出(思考模式)

output_token_tier3_thinking

33.6 元

国际

服务部署范围为国际区域时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于所选地域。

支持地域:新加坡

单次推理输入 Token 数

使用场景

对应Token 类型

单价(每百万Token)

0 < Token ≤ 32,768

模型输入

input_token_tier1

10.5684 元

模型输入

(命中隐式缓存)

input_token_tier1_cached

2.11368 元

模型输入

(命中显示缓存)

input_token_tier1_cached_explicit

1.05684 元

模型输入

(创建显示缓存)

input_token_tier1_create_cache

13.2105 元

模型输出(非思考)

output_token_tier1

52.842 元

模型输出(思考模式)

output_token_tier1_thinking

52.842 元

32,768 < Token ≤ 131,072

模型输入

input_token_tier2

21.1368 元

模型输入

(命中隐式缓存)

input_token_tier2_cached

4.22736 元

模型输入

(命中显示缓存)

input_token_tier2_cached_explicit

2.11368 元

模型输入

(创建显示缓存)

input_token_tier2_create_cache

26.421 元

模型输出(非思考)

output_token_tier2

105.6852 元

模型输出(思考模式)

output_token_tier2_thinking

105.6852 元

131,072 < Token ≤ 258,048

模型输入

input_token_tier3

26.4216 元

模型输入

(命中隐式缓存)

input_token_tier3_cached

5.28432 元

模型输入

(命中显示缓存)

input_token_tier3_cached_explicit

2.64216 元

模型输入

(创建显示缓存)

input_token_tier3_create_cache

33.027 元

模型输出(非思考)

output_token_tier3

132.1068 元

模型输出(思考模式)

output_token_tier3_thinking

132.1068 元

账单说明

  • 出账频率:按小时出账

    由于数据汇总需要,作业完成到推理费用账单产出通常存在数小时延迟,最终以阿里云费用中心为准

  • 账单查看路径

    1. 登录阿里云费用与成本控制台

    2. 在左侧导航栏选择账单 > 账单详情

    3. 账单详情页面,产品名称选择云原生大数据计算服务 MaxCompute,商品名称选择MaxCompute 模型计算服务,即可获取详细账单。

常见问题

  • Q:如何预估推理成本?
    A:可使用上述定价表结合预期输入/输出长度估算。例如,若平均每次调用输入2K Token、输出 1K Token,每个作业需要使用qwen3-max模型执行1000次推理,则单作业的模型计算费用目录价约为 18元。

  • Q:是否支持免费额度或试用?
    A:当前模型计算服务为纯按量计费,无免费额度,建议先在小规模数据上测试,以验证效果并确定成本。

  • Q:能否设置消费上限防止超额?
    A:暂不支持设置用量上限,请结合账单合理控制使用量。

相关文档