计费概览
多模态交互开发套件支持后付费(按量付费、节省计划)和预付费(设备订阅)计费模式。如采用后付费方式计费,请保持账户余额充足,避免欠费影响业务。设备订阅(License 模式)当前适用于RTOS SDK、Linux SDK、Android SDK 以及 iOS SDK。
|
计费模式 |
说明 |
|
后付费(按量付费) |
按实际交互轮次计费 |
|
预付费(设备订阅/License) |
按每年每台设备订阅 AI 交互资源包 |
|
节省计划 |
承诺消费金额享折扣,抵扣所有后付费项 |
免费试用
前往免费试用,新用户可获取一次10元免费试用额度,用于后付费模式,领取后免费试用有效期为3个月。
后付费(按量计费)
计费规则
多模态交互链路包含四大计费项:语音识别(ASR)、意图识别、大模型对话、语音合成(TTS)。每轮交互按实际使用的组件分别计费,未使用的组件不计费。
-
语音识别:支持两种规格的实时语音识别模型。未使用时不计费。
-
语音合成:支持两种规格的语音合成。未使用时不收费。
-
意图识别:对用户意图进行分类并分发给下游模块。未使用时不计费。
-
大模型对话:包含闲聊(支持插件、指令和联网搜索)、知识库问答及各类Agent。按每轮调用的能力计费。
调用阿里云百炼平台的Agent或插件时,费用由阿里云百炼平台直接结算,无额外收费。
计费项和标准价格
价格取决于各环节是否使用及所用模型/能力。具体价格请见下表:
|
交互链路 |
标准价格(元/千次) |
备注 |
|
|
语音交互 |
多模态交互轻量版语音识别 |
0.05 |
可选,每轮交互计为一次 |
|
标准语音识别 |
0.75 |
||
|
多模态交互轻量版语音合成 |
0.09 |
可选,每轮交互计为一次 |
|
|
标准语音合成 |
1.70 |
||
|
意图识别 |
意图识别(可选) |
0.80 |
每轮交互计为一次 |
|
大模型对话 (每轮交互选其一) |
闲聊(含调用内置插件、指令、音乐电台、多模态备忘录、地图出行) |
2.20 |
每轮交互计为一次 |
|
知识库问答 |
3.70 |
每轮交互计为一次 费用说明: |
|
|
语音翻译 |
5.70 |
每次启动Agent计为一次 |
|
|
新闻电台/儿童故事 |
0.02 |
每次启动Agent计为一次 |
|
|
拍照问答-均衡版 |
0.18 |
每轮交互计为一次,该计费在直连模式下有效,图片大小不可超过640*480,如需大分辨率场景请使用拍照问答高级版 |
|
|
视频对话/拍照翻译/拍照问答-高级版 |
12.00 |
每轮交互计为一次 |
|
|
主动导览 |
1.20 |
每轮交互计为一次,每次主动的图片分析也会计为一次交互 |
|
|
录音纪要 |
按通义听悟结算,详见产品概述 |
||
特殊情况:
-
新闻电台/儿童故事:持续播报的Agent。启动后,单次使用新闻电台或儿童故事会触发多次语音合成计费,每播报一句话语音合成调用计为一次。
-
语音翻译:每进入Agent计费一次,费用与翻译长度无关。
-
联网搜索、长期记忆为限时免费功能。
-
后付费模式下,部分高级模型由于成本更高、每次交互的计费次数可能会大于1。选择更贵的模型 =计费次数更高,具体如下表:
|
组件 |
基准规格 (元/千次) |
模型 |
计费次数 |
|
语音识别 |
语音识别 |
Fun-ASR、通义千问3-ASR-Flash-Realtime |
3x |
|
语音合成 |
语音合成 |
CosyVoice-v3-Plus、通义千问3-TTS 系列 |
3x |
|
大模型对话 |
闲聊及插件 |
Qwen3.7-Plus、Qwen3.6-Plus、Qwen-Max、Qwen3-Coder-Plus |
2x |
|
deepseek 除v4pro外的系列、GLM、Kimi、MiniMax、Qwen3.5-Omni-Flash |
4x |
||
|
Qwen3.6-Max |
6x |
||
|
Qwen3.7-Max、Qwen3.5-Omni-Plus(文本输出)、deepseek-v4-pro |
8x |
||
|
Qwen3.5-Omni-Plus(音频输出),farui-plus |
13x |
||
|
Qwen-Deep-Research |
32x |
||
|
知识库问答 |
知识库问答 |
与LLM所选大模型推送次数一致 |
|
知识库计费说明
知识库问答涉及两项独立费用,分别由不同服务收取:
|
费用项 |
费用内容 |
收费原因 |
结算方 |
|
大模型推理费 |
3.7元/千次 |
知识库片段拼接到 Prompt 中,增加了大模型处理的 Token 数量 |
多模态交互开发套件 |
|
知识库服务费 |
单独计费 |
知识库运行、向量化、检索等服务成本 |
知识库服务(详情请参见知识库计费说明) |
关键区别:
-
3.7元/千次付给的是大模型,因为它要处理更多内容
-
知识库费用付给的是知识库服务,因为它要运行和检索数据
典型场景费用预估
常见交互场景计费示例:
|
场景 |
预估费用(元/千次) |
计费构成 |
备注 |
|
标准语音闲聊 |
5.45 |
0.75(标准语音识别)+ 0.8(意图识别)+ 1.7(标准语音合成) + 2.2(标准闲聊,可包含插件、指令、联网搜索) |
每轮交互计为一次 |
|
轻量语音闲聊 |
2.3 |
0.05(轻量版语音识别)+ 0.09(轻量版语音合成) + 2.2(标准闲聊) |
每轮交互计为一次,不包含意图识别时,不支持开启插件、指令、联网搜索、Agent |
|
纯文本对话 |
3.0 |
0.8(意图识别) + 2.2(标准闲聊,可包含插件、指令、联网搜索) |
不使用语音识别和语音合成能力,仅纯文本输入和输出 |
|
知识库检索 |
6.25 |
0.05(轻量版语音识别) + 0.8(意图识别) + 1.7(标准语音合成) + 3.7(知识库检索) |
每轮交互计为一次 |
|
语音翻译 |
8.25 |
0.05(轻量版语音识别) + 0.8(意图识别) + 1.7(标准语音合成) + 5.7(语音翻译) |
每次开启语音翻译计为一次 |
|
实时视频对话/拍照问答 |
14.55 |
0.05(轻量版语音识别) + 0.8(意图识别) + 1.7(标准语音合成)+ 12(视觉理解) |
每轮交互计为一次 |
|
新闻电台/儿童故事 |
根据播放句数进行计算 |
0.05(轻量版语音识别) + 0.8(意图识别) + 1.7(标准语音合成)* n(播放句数) + 0.02(新闻电台) |
费用构成:语音识别+意图识别+单次启动+语音合成,其中每个播放的句子会调用语音合成功能,该部分按句计费。 |
预付费(设备订阅)
多模态交互开发套件提供了设备订阅的预付费模式,按每台/每年订阅 AI 交互资源包。选择档位后可获得统一的资源池,覆盖语音识别、大模型对话、语音合成等全链路能力及所有扩展功能。
规格档位
可以根据业务需求选择不同规格的档位。
|
档位 |
价格(元/台/年) |
|
体验版 |
2 |
|
基础版 |
5 |
|
标准版 |
10 |
计费规则
-
起购门槛:100 台起购。
-
资源池机制:购买后获得统一资源池,不同功能因 AI 资源消耗不同,实际可用交互次数因功能使用分布而有所不同。购买页提供用量计算器,可根据功能配置预估可用交互次数(仅供购买参考,实际用量取决于功能使用分布)。
-
叠加购买:支持对同一应用或工作空间多次叠加购买,资源池额度合并共享。
-
共享模式:购买时可选择绑定至工作空间(Workspace),同一工作空间下的多个应用可共享同一资源池。
激活与有效期
-
每个 License 的激活有效期为 1 年内。
-
使用时长从设备激活之日开始计算:
-
例如:2026 年 7 月 1 日下单 100 台 1 年期设备订阅,于 2026 年 10 月 1 日激活,则其使用期限至 2027 年 10 月 1 日
-
退订规则:购买后不支持退款。
节省计划
节省计划是一种折扣权益计划,可抵扣多模态交互所有按量付费项目。承诺消费金额即可享受折扣,相比按量付费费用降低 10%~50%。
|
承诺消费金额(元) |
折扣 |
有效期 |
|
20 ≤ 值 < 100 |
0.95 |
3个月 |
|
100 ≤ 值 ≤ 2,000 |
0.90 |
1年 |
|
2,000 < 值 ≤ 5,000 |
0.85 |
1年 |
|
5,000 < 值 ≤ 20,000 |
0.80 |
1年 |
|
20,000 < 值 ≤ 50,000 |
0.75 |
1年 |
|
50,000 < 值 ≤ 100,000 |
0.70 |
1年 |
|
100,000 < 值 ≤ 200,000 |
0.65 |
1年 |
|
200,000 < 值 ≤ 300,000 |
0.60 |
1年 |
|
300,000 < 值 ≤ 400,000 |
0.55 |
1年 |
|
400,000 < 值 ≤ 500,000 |
0.50 |
1年 |
购买方式
-
付款类型:一次性预付
-
有效期:20~100元区间有效期为3个月,100元及以上区间为1年(到期未用费用不返还)