模型计算费用（Token费用）-云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心

MaxCompute 模型计算服务是 MaxCompute 为满足客户使用大模型进行数据处理或离线推理提供的一种开箱即用、按量付费的新功能。本文介绍模型计算服务的计费规则。

功能介绍

MaxCompute 模型计算服务是 MaxCompute 提供的大模型推理能力，支持在 SQL/MaxFrame 作业中通过内置 AI Function 直接调用 MaxCompute 提供的开箱即用的模型。系统将根据实际用量如模型输入、模型输出 Token 量计费，用户按 Token 实际使用量付费。

支持地域：当前仅以下地域支持开通模型计算服务。
- 中国内地：华北2（北京）、华东2（上海）、华东1（杭州）、华南1（深圳）、华北6（乌兰察布）
- 国际：新加坡

支持模型：必须先在目标地域（如华北2-北京）开通模型计算服务，才可以使用如下模型。

模型	支持类型	说明
`qwen3.7-max`	仅支持文本输入	千问3.7系列旗舰模型，在推理、代码生成、多语言理解等方面全面升级，适用于高复杂度任务场景。
`qwen3.7-plus`	支持多模态数据输入	千问 3.7 系列均衡型模型，兼顾性能与成本，适用于企业级长文本分析及多轮对话等综合场景。
`qwen3-vl-embedding`	支持多模态数据输入	千问多模态向量化模型，支持图文混合输入的向量表示，适用于跨模态检索、图文匹配等场景。
`text-embedding-v4`	仅支持文本输入	高精度文本向量化模型，适用于语义检索、聚类、相似度计算等场景。
`qwen3.6-plus`	支持多模态数据输入	千问3.6系列均衡型模型，兼顾性能与成本，适用于对话、摘要、分析等通用业务场景。
`qwen3.6-flash`	支持多模态数据输入	千问3.6系列轻量高速模型，响应速度快、成本低，适用于高并发、低延迟的在线服务场景。
`deepseek-v4-pro`	仅支持文本输入	DeepSeek第四代旗舰推理模型，擅长数学、代码、复杂逻辑推理等高难度任务场景。
`deepseek-v4-flash`	仅支持文本输入	DeepSeek第四代轻量模型，推理速度快、性价比高，适用于日常对话、轻量推理等场景。
`qwen3.5-397b-a17b`	支持多模态数据输入	千问 3.5 系列MoE 架构模型，激活参数高效，兼具海量知识储备与多步推理能力，专为高难度逻辑推演、全栈代码生成及深度知识问答设计。
`qwen3-asr-flash`	支持多模态数据输入	千问 3 系列轻量级语音识别模型，具备低延迟、高并发的实时转写能力，适用于会议记录、直播字幕生成及语音交互指令识别等实时音频处理场景。
`qwen3-max`（即将下线）	仅支持文本输入	千问系列高性能大语言模型，适用于复杂推理、内容生成等场景。

说明

目前仅分布式AI计算引擎MaxFrame、SQL作业通过AI Function使用上述公共模型时，会产生模型计算服务费用。仅成功作业计费，失败作业不产生模型计算服务费用。

计费规则

模型计算服务采用按 Token 用量计费，计费维度包括：

地域（Region）
模型类型（ModelName）
Token 类型（TokenType）：含输入或输出 Token，以及使用量所处的阶梯区间。

定价说明

单个 SQL/MaxFrame 作业可能存在多次模型调用，当使用的模型存在定价阶梯时，系统会独立统计每次模型调用时的输入 Token 数以判定计费阶梯（Token类型），不同 Token 类型的用量会分别统计和出账。

重要

服务部署范围为中国区域时，模型推理计算资源仅限于中国内地；静态数据存储于所选地域。
服务部署范围为国际区域时，模型推理计算资源在全球范围内动态调度（不含中国内地）；静态数据存储于所选地域。

qwen3.7-max

中国内地

服务部署范围为中国区域时，模型推理计算资源仅限于中国内地；静态数据存储于所选地域。

支持地域：

中国内地：华北2（北京）、华东2（上海）、华东1（杭州）、华南1（深圳）、华北6（乌兰察布）

单次推理输入 Token 数	使用场景	Token 类型	单价（每百万Token）
0<Token≤1048576	模型输入	`input_token_tier1`	14.4 元
	模型输入（命中隐式缓存）	`input_token_tier1_cached`	2.88 元
	模型输入（命中显示缓存）	`input_token_tier1_cached_explicit`	1.44 元
	模型输入（创建显示缓存）	`input_token_tier1_create_cache`	18 元
	模型输出（非思考）	`output_token_tier1`	43.2 元
	模型输出（思考模式）	`output_token_tier1_thinking`	43.2 元

国际

服务部署范围为国际区域时，模型推理计算资源在全球范围内动态调度（不含中国内地）；静态数据存储于所选地域。

支持地域：新加坡

单次推理输入 Token 数	使用场景	Token 类型	单价（每百万Token）
0<Token≤1048576	模型输入	`input_token_tier1`	22.4832 元
	模型输入（命中隐式缓存）	`input_token_tier1_cached`	4.49664 元
	模型输入（命中显示缓存）	`input_token_tier1_cached_explicit`	2.24832 元
	模型输入（创建显示缓存）	`input_token_tier1_create_cache`	28.104 元
	模型输出（非思考）	`output_token_tier1`	67.4484 元
	模型输出（思考模式）	`output_token_tier1_thinking`	67.4484 元

qwen3.7-plus

中国内地

服务部署范围为中国区域时，模型推理计算资源仅限于中国内地；静态数据存储于所选地域。

支持地域：

中国内地：华北2（北京）、华东2（上海）、华东1（杭州）、华南1（深圳）、华北6（乌兰察布）

单次推理输入 Token 数	使用场景	Token 类型	单价（每百万Token）
0<Token≤262144	模型输入	`input_token_tier1`	2.4 元
	模型输入（命中隐式缓存）	`input_token_tier1_cached`	0.48 元
	模型输入（命中显示缓存）	`input_token_tier1_cached_explicit`	0.24 元
	模型输入（创建显示缓存）	`input_token_tier1_create_cache`	3 元
	模型输出（非思考）	`output_token_tier1`	9.6 元
	模型输出（思考模式）	`output_token_tier1_thinking`	9.6 元
262144<Token≤1048576	模型输入	`input_token_tier2`	7.2 元
	模型输入（命中隐式缓存）	`input_token_tier2_cached`	1.44 元
	模型输入（命中显示缓存）	`input_token_tier2_cached_explicit`	0.72 元
	模型输入（创建显示缓存）	`input_token_tier2_create_cache`	9 元
	模型输出（非思考）	`output_token_tier2`	28.8 元
	模型输出（思考模式）	`output_token_tier2_thinking`	28.8 元

国际

服务部署范围为国际区域时，模型推理计算资源在全球范围内动态调度（不含中国内地）；静态数据存储于所选地域。

支持地域：新加坡

单次推理输入 Token 数	使用场景	Token 类型	单价（每百万Token）
0<Token≤262144	模型输入	`input_token_tier1`	3.5976 元
	模型输入（命中隐式缓存）	`input_token_tier1_cached`	0.71952 元
	模型输入（命中显示缓存）	`input_token_tier1_cached_explicit`	0.35976 元
	模型输入（创建显示缓存）	`input_token_tier1_create_cache`	4.497 元
	模型输出（非思考）	`output_token_tier1`	14.3892 元
	模型输出（思考模式）	`output_token_tier1_thinking`	14.3892 元
262144<Token≤1048576	模型输入	`input_token_tier2`	10.7916 元
	模型输入（命中隐式缓存）	`input_token_tier2_cached`	2.15832 元
	模型输入（命中显示缓存）	`input_token_tier2_cached_explicit`	1.07916 元
	模型输入（创建显示缓存）	`input_token_tier2_create_cache`	13.4895 元
	模型输出（非思考）	`output_token_tier2`	43.1664 元
	模型输出（思考模式）	`output_token_tier2_thinking`	43.1664 元

qwen3-vl-embedding

服务部署范围为中国区域时，模型推理计算资源仅限于中国内地；静态数据存储于所选地域。

支持地域：

中国内地：华北2（北京）、华东2（上海）、华东1（杭州）、华南1（深圳）、华北6（乌兰察布）

地域	数据类型	使用场景	对应 Token 类型	单价（每百万Token）
中国内地	文本	模型输入	`input_token_tier1_text`	0.84 元
中国内地	图片&视频	模型输入	`input_token_tier1_image`	2.16 元

text-embedding-v4

text-embedding-v4 仅产生模型输入Token费用，无模型输出费用，且不设阶梯，统一按 input_token_tier1 计费。

中国内地

服务部署范围为中国区域时，模型推理计算资源仅限于中国内地；静态数据存储于所选地域。

支持地域：

中国内地：华北2（北京）、华东2（上海）、华东1（杭州）、华南1（深圳）、华北6（乌兰察布）

阶梯区间	使用场景	Token 类型	单价（每百万Token）
无阶梯	模型输入	`input_token_tier1`	0.6 元

国际

服务部署范围为国际区域时，模型推理计算资源在全球范围内动态调度（不含中国内地）；静态数据存储于所选地域。

支持地域：新加坡

阶梯区间	使用场景	Token 类型	单价（每百万Token）
无阶梯	模型输入	`input_token_tier1`	0.6168 元

qwen3.6-plus

中国内地

服务部署范围为中国区域时，模型推理计算资源仅限于中国内地；静态数据存储于所选地域。

支持地域：

中国内地：华北2（北京）、华东2（上海）、华东1（杭州）、华南1（深圳）、华北6（乌兰察布）

单次推理输入 Token 数	使用场景	Token 类型	单价（每百万Token）
0<Token≤262144	模型输入	`input_token_tier1`	2.4 元
	模型输入（命中隐式缓存）	`input_token_tier1_cached`	0.48 元
	模型输入（命中显示缓存）	`input_token_tier1_cached_explicit`	0.24 元
	模型输入（创建显示缓存）	`input_token_tier1_create_cache`	3 元
	模型输出（非思考）	`output_token_tier1`	14.4 元
	模型输出（思考模式）	`output_token_tier1_thinking`	14.4 元
262144<Token≤1048576	模型输入	`input_token_tier2`	9.6 元
	模型输入（命中隐式缓存）	`input_token_tier2_cached`	1.92 元
	模型输入（命中显示缓存）	`input_token_tier2_cached_explicit`	0.96 元
	模型输入（创建显示缓存）	`input_token_tier2_create_cache`	12 元
	模型输出（非思考）	`output_token_tier2`	57.6 元
	模型输出（思考模式）	`output_token_tier2_thinking`	57.6 元

国际

服务部署范围为国际区域时，模型推理计算资源在全球范围内动态调度（不含中国内地）；静态数据存储于所选地域。

支持地域：新加坡

单次推理输入 Token 数	使用场景	Token 类型	单价（每百万Token）
0<Token≤262144	模型输入	`input_token_tier1`	4.49652 元
	模型输入（命中隐式缓存）	`input_token_tier1_cached`	0.899304 元
	模型输入（命中显示缓存）	`input_token_tier1_cached_explicit`	0.449652 元
	模型输入（创建显示缓存）	`input_token_tier1_create_cache`	5.62065 元
	模型输出（非思考）	`output_token_tier1`	26.97912 元
	模型输出（思考模式）	`output_token_tier1_thinking`	26.97912 元
262144<Token≤1048576	模型输入	`input_token_tier2`	17.98608 元
	模型输入（命中隐式缓存）	`input_token_tier2_cached`	3.597216 元
	模型输入（命中显示缓存）	`input_token_tier2_cached_explicit`	1.798608 元
	模型输入（创建显示缓存）	`input_token_tier2_create_cache`	22.4826 元
	模型输出（非思考）	`output_token_tier2`	53.958 元
	模型输出（思考模式）	`output_token_tier2_thinking`	53.958 元

qwen3.6-flash

中国内地

服务部署范围为中国区域时，模型推理计算资源仅限于中国内地；静态数据存储于所选地域。

支持地域：

中国内地：华北2（北京）、华东2（上海）、华东1（杭州）、华南1（深圳）、华北6（乌兰察布）

单次推理输入 Token 数	使用场景	Token 类型	单价（每百万Token）
0<Token≤262144	模型输入	`input_token_tier1`	1.44 元
	模型输入（命中隐式缓存）	`input_token_tier1_cached`	0.288 元
	模型输入（命中显示缓存）	`input_token_tier1_cached_explicit`	0.144 元
	模型输入（创建显示缓存）	`input_token_tier1_create_cache`	1.8 元
	模型输出（非思考）	`output_token_tier1`	8.64 元
	模型输出（思考模式）	`output_token_tier1_thinking`	8.64 元
262144<Token≤1048576	模型输入	`input_token_tier2`	5.76 元
	模型输入（命中隐式缓存）	`input_token_tier2_cached`	1.152 元
	模型输入（命中显示缓存）	`input_token_tier2_cached_explicit`	0.576 元
	模型输入（创建显示缓存）	`input_token_tier2_create_cache`	7.2 元
	模型输出（非思考）	`output_token_tier2`	34.56 元
	模型输出（思考模式）	`output_token_tier2_thinking`	34.56 元

国际

服务部署范围为国际区域时，模型推理计算资源在全球范围内动态调度（不含中国内地）；静态数据存储于所选地域。

支持地域：新加坡

单次推理输入 Token 数	使用场景	Token 类型	单价（每百万Token）
0<Token≤262144	模型输入	`input_token_tier1`	2.24826 元
	模型输入（命中隐式缓存）	`input_token_tier1_cached`	0.449652 元
	模型输入（命中显示缓存）	`input_token_tier1_cached_explicit`	0.224826 元
	模型输入（创建显示缓存）	`input_token_tier1_create_cache`	2.810325 元
	模型输出（非思考）	`output_token_tier1`	13.48956 元
	模型输出（思考模式）	`output_token_tier1_thinking`	13.48956 元
262144<Token≤1048576	模型输入	`input_token_tier2`	8.99304 元
	模型输入（命中隐式缓存）	`input_token_tier2_cached`	1.798608 元
	模型输入（命中显示缓存）	`input_token_tier2_cached_explicit`	0.899304 元
	模型输入（创建显示缓存）	`input_token_tier2_create_cache`	11.2413 元
	模型输出（非思考）	`output_token_tier2`	35.97096 元
	模型输出（思考模式）	`output_token_tier2_thinking`	35.97096 元

deepseek-v4-pro

中国内地

服务部署范围为中国区域时，模型推理计算资源仅限于中国内地；静态数据存储于所选地域。

支持地域：

中国内地：华北2（北京）、华东2（上海）、华东1（杭州）、华南1（深圳）、华北6（乌兰察布）

阶梯区间	使用场景	Token 类型	单价（每百万Token）
无阶梯	模型输入	`input_token_tier1`	14.4 元
	模型输入（命中隐式缓存）	`input_token_tier1_cached`	2.88 元
	模型输入（命中显示缓存）	`input_token_tier1_cached_explicit`	1.44 元
	模型输入（创建显示缓存）	`input_token_tier1_create_cache`	18 元
	模型输出（非思考）	`output_token_tier1`	28.8 元
	模型输出（思考模式）	`output_token_tier1_thinking`	28.8 元

国际

服务部署范围为国际区域时，模型推理计算资源在全球范围内动态调度（不含中国内地）；静态数据存储于所选地域。

支持地域：新加坡

单次推理输入 Token 数	使用场景	Token 类型	单价（每百万Token）
0<Token≤1048576	模型输入	`input_token_tier1`	21.5832 元
	模型输入（命中隐式缓存）	`input_token_tier1_cached`	4.31664 元
	模型输入（命中显示缓存）	`input_token_tier1_cached_explicit`	2.15832 元
	模型输入（创建显示缓存）	`input_token_tier1_create_cache`	26.979 元
	模型输出（非思考）	`output_token_tier1`	43.1664 元
	模型输出（思考模式）	`output_token_tier1_thinking`	43.1664 元

deepseek-v4-flash

中国内地

服务部署范围为中国区域时，模型推理计算资源仅限于中国内地；静态数据存储于所选地域。

支持地域：

中国内地：华北2（北京）、华东2（上海）、华东1（杭州）、华南1（深圳）、华北6（乌兰察布）

阶梯区间	使用场景	Token 类型	单价（每百万Token）
无阶梯	模型输入	`input_token_tier1`	1.2 元
	模型输入（命中隐式缓存）	`input_token_tier1_cached`	0.24 元
	模型输入（命中显示缓存）	`input_token_tier1_cached_explicit`	0.12 元
	模型输入（创建显示缓存）	`input_token_tier1_create_cache`	1.5 元
	模型输出（非思考）	`output_token_tier1`	2.4 元
	模型输出（思考模式）	`output_token_tier1_thinking`	2.4 元

国际

服务部署范围为国际区域时，模型推理计算资源在全球范围内动态调度（不含中国内地）；静态数据存储于所选地域。

支持地域：新加坡

阶梯区间	使用场景	Token 类型	单价（每百万Token）
0<Token≤1048576	模型输入	`input_token_tier1`	1.7988 元
	模型输入（命中隐式缓存）	`input_token_tier1_cached`	0.35976 元
	模型输入（命中显示缓存）	`input_token_tier1_cached_explicit`	0.17988 元
	模型输入（创建显示缓存）	`input_token_tier1_create_cache`	2.2485 元
	模型输出（非思考）	`output_token_tier1`	3.5976 元
	模型输出（思考模式）	`output_token_tier1_thinking`	3.5976 元

qwen3.5-397b-a17b

服务部署范围为中国区域时，模型推理计算资源仅限于中国内地；静态数据存储于所选地域。

支持地域：

中国内地：华北2（北京）、华东2（上海）、华东1（杭州）、华南1（深圳）、华北6（乌兰察布）

单次推理输入 Token 数	使用场景	Token 类型	单价（每百万Token）
0<Token≤131,072	模型输入	`input_token_tier1`	1.44 元
	模型输入（命中隐式缓存）	`input_token_tier1_cached`	0.288 元
	模型输入（命中显示缓存）	`input_token_tier1_cached_explicit`	0.144 元
	模型输入（创建显示缓存）	`input_token_tier1_create_cache`	1.8 元
	模型输出（非思考）	`output_token_tier1`	8.64 元
	模型输出（思考模式）	`output_token_tier1_thinking`	8.64 元
131,072<Token≤262144	模型输入	`input_token_tier2`	3.6 元
	模型输入（命中隐式缓存）	`input_token_tier2_cached`	0.72 元
	模型输入（命中显示缓存）	`input_token_tier2_cached_explicit`	0.36 元
	模型输入（创建显示缓存）	`input_token_tier2_create_cache`	4.5 元
	模型输出（非思考）	`output_token_tier2`	21.6 元
	模型输出（思考模式）	`output_token_tier2_thinking`	21.6 元

qwen3-asr-flash

qwen3-asr-flash 仅产生模型输入Token费用，无模型输出费用，且不设阶梯，统一按 input_token_tier1 计费。

中国内地

服务部署范围为中国区域时，模型推理计算资源仅限于中国内地；静态数据存储于所选地域。

支持地域：

中国内地：华北2（北京）、华东2（上海）、华东1（杭州）、华南1（深圳）、华北6（乌兰察布）

阶梯区间	使用场景	Token 类型	单价（每百万Token）
无阶梯	模型输入	`input_token_tier1`	10.56 元

国际

服务部署范围为国际区域时，模型推理计算资源在全球范围内动态调度（不含中国内地）；静态数据存储于所选地域。

支持地域：新加坡

阶梯区间	使用场景	Token 类型	单价（每百万Token）
无阶梯	模型输入	`input_token_tier1`	12.48 元

qwen3-max（即将下线）

中国内地

服务部署范围为中国区域时，模型推理计算资源仅限于中国内地；静态数据存储于所选地域。

支持地域：

中国内地：华北2（北京）、华东2（上海）、华东1（杭州）、华南1（深圳）、华北6（乌兰察布）

单次推理输入 Token 数	使用场景	对应Token 类型	单价（每百万Token）
0 < Token ≤ 32,768	模型输入	`input_token_tier1`	3 元
	模型输入（命中隐式缓存）	`input_token_tier1_cached`	0.6 元
	模型输入（命中显示缓存）	`input_token_tier1_cached_explicit`	0.3 元
	模型输入（创建显示缓存）	`input_token_tier1_create_cache`	3.75 元
	模型输出（非思考）	`output_token_tier1`	12 元
	模型输出（思考模式）	`output_token_tier1_thinking`	12 元
32,768 < Token ≤ 131,072	模型输入	`input_token_tier2`	4.8 元
	模型输入（命中隐式缓存）	`input_token_tier2_cached`	0.96 元
	模型输入（命中显示缓存）	`input_token_tier2_cached_explicit`	0.48 元
	模型输入（创建显示缓存）	`input_token_tier2_create_cache`	6 元
	模型输出（非思考）	`output_token_tier2`	19.2 元
	模型输出（思考模式）	`output_token_tier2_thinking`	19.2 元
131,072 < Token ≤ 258,048	模型输入	`input_token_tier3`	8.4 元
	模型输入（命中隐式缓存）	`input_token_tier3_cached`	1.68 元
	模型输入（命中显示缓存）	`input_token_tier3_cached_explicit`	0.84 元
	模型输入（创建显示缓存）	`input_token_tier3_create_cache`	10.5 元
	模型输出（非思考）	`output_token_tier3`	33.6 元
	模型输出（思考模式）	`output_token_tier3_thinking`	33.6 元

国际

服务部署范围为国际区域时，模型推理计算资源在全球范围内动态调度（不含中国内地）；静态数据存储于所选地域。

支持地域：新加坡

单次推理输入 Token 数	使用场景	对应Token 类型	单价（每百万Token）
0 < Token ≤ 32,768	模型输入	`input_token_tier1`	10.5684 元
	模型输入（命中隐式缓存）	`input_token_tier1_cached`	2.11368 元
	模型输入（命中显示缓存）	`input_token_tier1_cached_explicit`	1.05684 元
	模型输入（创建显示缓存）	`input_token_tier1_create_cache`	13.2105 元
	模型输出（非思考）	`output_token_tier1`	52.842 元
	模型输出（思考模式）	`output_token_tier1_thinking`	52.842 元
32,768 < Token ≤ 131,072	模型输入	`input_token_tier2`	21.1368 元
	模型输入（命中隐式缓存）	`input_token_tier2_cached`	4.22736 元
	模型输入（命中显示缓存）	`input_token_tier2_cached_explicit`	2.11368 元
	模型输入（创建显示缓存）	`input_token_tier2_create_cache`	26.421 元
	模型输出（非思考）	`output_token_tier2`	105.6852 元
	模型输出（思考模式）	`output_token_tier2_thinking`	105.6852 元
131,072 < Token ≤ 258,048	模型输入	`input_token_tier3`	26.4216 元
	模型输入（命中隐式缓存）	`input_token_tier3_cached`	5.28432 元
	模型输入（命中显示缓存）	`input_token_tier3_cached_explicit`	2.64216 元
	模型输入（创建显示缓存）	`input_token_tier3_create_cache`	33.027 元
	模型输出（非思考）	`output_token_tier3`	132.1068 元
	模型输出（思考模式）	`output_token_tier3_thinking`	132.1068 元

账单说明

出账频率：按小时出账
由于数据汇总需要，作业完成到推理费用账单产出通常存在数小时延迟，最终以阿里云费用中心为准。
账单查看路径
1. 登录阿里云费用与成本控制台。
2. 在左侧导航栏选择账单 > 账单详情。
3. 在账单详情页面，产品名称选择云原生大数据计算服务 MaxCompute，商品名称选择MaxCompute 模型计算服务，即可获取详细账单。

常见问题

Q：如何预估推理成本？
A：可使用上述定价表结合预期输入/输出长度估算。例如，若平均每次调用输入2K Token、输出 1K Token，每个作业需要使用qwen3-max模型执行1000次推理，则单作业的模型计算费用目录价约为 18元。
Q：是否支持免费额度或试用？
A：当前模型计算服务为纯按量计费，无免费额度，建议先在小规模数据上测试，以验证效果并确定成本。
Q：能否设置消费上限防止超额？
A：暂不支持设置用量上限，请结合账单合理控制使用量。

功能介绍

计费规则

定价说明

qwen3.7-max

中国内地

国际

qwen3.7-plus

中国内地

国际

qwen3-vl-embedding

text-embedding-v4

中国内地

国际

qwen3.6-plus

中国内地

国际

qwen3.6-flash

中国内地

国际

deepseek-v4-pro

中国内地

国际

deepseek-v4-flash

中国内地

国际

qwen3.5-397b-a17b

qwen3-asr-flash

中国内地

国际

qwen3-max（即将下线）

中国内地

国际

账单说明

常见问题

相关文档