付费方式
目前支持后付费和License购买两种方式。如采用后付费方式计费,请保持账户余额充足,避免欠费影响业务。License 授权模式当前仅适用于 RTOS SDK 和 Linux SDK。
计费周期
2025年7月1日起开始收费。
免费试用
前往免费试用,可获取一次10元免费试用额度,用于后付费模式,领取后免费试用有效期为3个月。
后付费模式
计费规则
多模态交互链路包含四个计费项:语音识别、意图识别、大模型对话和语音合成。每轮交互按实际使用计费。
语音识别:支持Gummy或Paraformer实时语音识别模型。未使用时不计费。
意图识别:对用户意图进行分类并分发给下游模块。
大模型对话:包含闲聊(支持插件、指令和联网搜索)、知识库问答及各类Agent。按每轮调用的能力计费。
调用阿里云百炼平台的Agent或插件时,费用由阿里云百炼平台直接结算,无额外收费。
语音合成:可使用cosyvoice-v2大模型。不使用时不收费。
特殊情况:
新闻电台:持续播报的Agent。启动后,单次使用新闻电台会触发多次语音合成计费,每播报一句话语音合成调用计为一次。
语音翻译:每进入Agent计费一次,费用与翻译长度无关。
当选择qwq-plus、qwen-max或deepseek模型时,每次闲聊或知识库问答按4次计费。
计费项和标准价格
价格取决于各环节是否使用及所用模型/能力。具体价格请见下表。
交互链路 | 标准价格(元/千次) | 备注 | |
语音交互 | 语音识别(可选) | 0.75 | 每轮交互计为一次 |
语音合成(可选) | 1.7 | 每轮交互计为一次 | |
意图识别 | 意图识别 | 0.8 | 每轮交互计为一次 |
大模型对话 (每轮交互选其一) | 闲聊(含调用插件、指令、联网搜索) 低延迟响应 支持灵活调度:插件、指令、联网搜索 内置功能:天气查询、万年历、股价查询等 | 2.2 | 每轮交互计为一次 |
知识库问答 支持私域知识库接入,问答过程可控可管 | 3.7 | 每轮交互计为一次 | |
语音翻译 多语种支持,实时低延迟 | 5.7 | 每次启动Agent计为一次 | |
实时视频对话/拍照问答 多模态实时理解问答,端到端自然对话 | 74 | 每轮交互计为一次 | |
新闻电台 真人音色,互动式语音播报 | 0.02 | 每次启动Agent计为一次 |
示例:不同交互场景的费用预估
常见交互场景计费示例:
功能 | 标准价格(元/千次) | 备注 |
语音闲聊 | 5.45 5.45 = 0.75(语音识别) + 0.8(意图识别) + 1.7(语音合成) + 2.2(闲聊,可包含插件、指令、联网搜索) | 每轮交互计为一次 |
文本对话 | 3.0 3.0 = 0.8(意图识别) + 2.2(闲聊,可包含插件、指令、联网搜索) | 不使用语音识别和语音合成能力,仅纯文本输入和输出 |
知识库检索 | 6.95 6.95 = 0.75(语音识别) + 0.8(意图识别) + 1.7(语音合成) + 3.7(知识库检索) | 每轮交互计为一次 |
语音翻译 | 8.95 8.95 = 0.75(语音识别) + 0.8(意图识别) + 1.7(语音合成) + 5.7(语音翻译) | 每次开启语音翻译计为一次 |
实时视频对话/拍照问答 | 77.25 77.25 = 0.75(语音识别) + 0.8(意图识别) + 1.7(语音合成) + 74(视觉理解) | 每轮交互计为一次 |
新闻电台 | 根据播放句数进行计算 费用 = 0.75(语音识别) + 0.8(意图识别) + 1.7(语音合成) * n(播放句数) + 0.02(新闻电台) | 费用构成:语音识别+意图识别+单次启动+语音合成,其中每个播放的句子会调用语音合成功能,该部分按句计费。 |
节省计划
节省计划是一种折扣权益计划,可以抵扣多模态交互所有按量付费项目。承诺消费金额即可享受折扣。相比按量付费,费用降低10%-50%。
折扣力度
承诺消费金额(元) | 折扣 |
100<=值<=2000 | 0.9 |
2000<值<=5000 | 0.85 |
5000<值<=20000 | 0.8 |
20000<值<=50000 | 0.75 |
50000<值<=100000 | 0.7 |
100000<值<=200000 | 0.65 |
200000<值<=300000 | 0.6 |
300000<值<=400000 | 0.55 |
400000<值<=500000 | 0.5 |
购买方式
付款类型:一次性预付
有效期:1年(到期未用费用不返还)
License 模式
多模态交互开发套件提供了按设备单台 License(即预付费包+有用量上限)的年价计费方式。目前 License 授权模式仅适用于 RTOS SDK 和 Linux SDK。
规格类型
可以根据业务需求选择不同规格的License。不同规格对应的使用次数如下。
规格 | 体验包 | 小额包 | 通用包 | 超大包 |
基础功能 | 1200次/年 | 2400次/年 | 6000次/年 | 12000次/年 |
知识库检索 | +720次/年 | +1440次/年 | +3600次/年 | +7200次/年 |
语音翻译 | +240次/年 | +480次/年 | +1200次/年 | +2400次/年 |
新闻电台 | +360次/年 | +720次/年 | +1800次/年 | +3600次/年 |
视觉理解 | +240次/年 | +480次/年 | +1200次/年 | +2400次/年 |
说明:
下单后,系统将按照“次数 × 年数 × License 数”计算可用总次数,并一次性发放至您下单的应用资源池。
基础功能默认包含意图识别与闲聊(含插件调用、指令控制、联网搜索)。是否包含语音识别和语音合成,取决于控制台中的实际功能配置。若启用额外功能(如知识库检索、语音翻译、新闻电台、视觉理解),系统将按上表所列标准,叠加对应的使用次数。
例如:若功能配置包含基础功能、语音翻译和视觉理解,则每个 License 每年可用总次数为:
6,000(基础功能)+ 1,200(语音翻译)+ 1,200(视觉理解) = 8,400 次/年。
交互次数可在不同功能间共享,功能类型不受限制。
例如,若购买包含基础功能(6,000 次/年)和新闻电台(+1,800 次/年)的通用包,总次数为 7,800 次/年。该总次数可按需分配,用于任意已启用功能。
所有 License 在其生命周期内共享使用总次数。
例如:购买包含知识库功能的体验包,共 300 个 License,使用期限为 2 年。
则可用总次数为:
(100 次/月 + 60 次/月) × 2 年 × 12 月/年 × 300 License = 1,152,000 次
每个 License 的激活有效期为 1 年内,使用时长从设备激活之日开始计算。
例如:2025 年 7 月 1 日下单 100 个 2 年期 License,其中某个 License 于 2026 年 6 月 30 日激活,则其使用期限为至 2028 年 6 月 30 日。
如需更多调用次数,可通过增加 License 数量扩容资源池。
例如:计划为 10,000 个 License 配置每年 12,000 次的调用额度,功能包括基础能力和知识库检索。
当前每个基础功能 + 知识库检索通用 License 每年支持 9,600 次调用,则需购买 12,500 个 License,以满足总调用需求:9,600 × 12,500 = 120,000,000 次,可覆盖 10,000 台设备每年 12,000 次的使用场景。