产品接入与使用FAQ-智能语音交互-阿里云-智能语音交互(ISI)-阿里云帮助中心

本文汇总了您在使用智能语音交互产品过程中的常见问题。

产品公共常见问题主要分为以下几类：

功能类
性能类
SDK使用类
计费类
- 实时语音识别最大并发可以买多少路？
- 英文的识别，需要购买扩展语言包还是要买路数？

功能类

使用阿里云音视频通信RTC如何调用语音识别服务？

使用阿里云音视频通信RTC服务可以集成智能语音交互服务，具体请参见语音数据处理。

智能语音交互服务中语音识别和语音合成用到的端口是哪些？

对于HTTP协议，端口号为80；对于HTTPS和Websocket协议，端口号为443。

开通商用或者扩容并发，多久才会在控制台上显示？

可用并发路数为实时更新显示，昨日并发路数为T+1更新。另外，控制台显示的计量数据是T+1规则，第二天更新数据。

智能语音交互创建的项目数量有限制吗？

目前没有限制。

控制台一个项目下支持多个基础模型吗？

不支持。一个Appkey对应一个模型。

有没有H5语音唤醒相应的技术和插件？

设备端暂不支持此功能，云端支持。如果是设备端，一般会采用端云结合的方案。设备端侧有一个唤醒模型，设备端唤醒后结合云端模型二次确认降低误唤醒的概率。

如何在阿里云查询账号下ASR语音识别服务的使用情况？

您可以在控制台直观地查看智能语音交互服务的调用情况，包括时长、次数、并发路数等，根据运营数据判断当前使用是否合理，并决策是否需要增加或减少相关服务调用量。具体请参见服务用量。

智能语音交互服务有哪些域名？这些域名对应IP地址有哪些？

智能语音交互服务的域名为nls-meta.cn-shanghai.aliyuncs.com和nls-gateway-cn-shanghai.aliyuncs.com，端口为80、443，支持HTTPS和Websocket协议。可通过命令dig nls-gateway-cn-shanghai.aliyuncs.com 或dig nls-meta.cn-shanghai.aliyuncs.com查看域名对应的IP地址。这些IP地址是动态IP，可能会不定期有更新，需要调用方自行监控。

找不到AccessKey ID和AccessKey Secret在哪里？

请参见开通服务，获取AccessKey ID和AccessKey Secret。

如何查看UID？

登录阿里云控制台。
将鼠标悬浮在右上角用户头像上，弹出的面板信息中的账号ID即为UID。

智能语音交互是否有供参考的教程？

以下是相关的功能的视频介绍：

调用智能语音交互 API 是否需要配置服务器公网 IP 白名单？

不需要。智能语音交互服务 API 通过公网访问，只要客户端服务器能正常访问外网，并正确配置 Endpoint、AccessKey 等参数即可调用，无需在阿里云侧绑定或报备服务器公网 IP。

说话人识别/声纹核验相似度低或分数异常怎么办？

分场景说明原因及优化建议：

相似度低：多因录音设备不一致或背景噪音差异大，建议使用相同设备和环境录音；虽然支持任意中文内容，但使用数字串注册和核验效果更佳。
不同人比对分数异常偏高：可能因声音听感相似，建议增加测试样本量验证。
同一设备注册后识别分数异常偏低：若服务端测试正常，请检查客户端音频采集及处理流程（如降噪算法）是否影响了声纹特征。

说话人识别核验时传入的数字串必须与注册时一致吗？

不需要一致。系统主要依据声音特征比对，而非文本内容的一致性。但出于识别效果考虑，建议注册和核验时均优先使用数字串。

自建机房部署的 MRCP 服务如何获取 TaskId？

查看自建机房部署的 MRCP 服务日志文件 logs/nls-cloud-sdm/sdm-tts-request.log 以获取 TaskId。

如何查看智能语音交互 MRCP Docker 镜像的历史版本 Tag 列表？

目前不支持通过 Web 页面查看所有 Tag 列表。历史版本需通过指定 tag 拉取（例如上一版本 tag 为 20250106），请使用 docker pull 命令配合具体 tag 拉取。

智能语音交互 nls-cloud-sdm MRCP 模块是否仍在维护？

nls-cloud-sdm 的 MRCP 模块仍在维护中。

听悟 API 返回的 OSS 播放地址包含转义字符无法播放怎么办？

URL 中包含 & 等转义字符通常是业务代码错误转码 URL 字符串导致，并非音频转码问题。此外，OSS 播放地址具有时效性（由 Expires 参数控制），过期后需通过 GetTaskinfo 接口重新获取最新的有效地址。

听悟实时会议角色分离不准怎么办？

实时角色分离效果受限于流式处理，不一定完全准确。如果实时效果不佳，建议在会议结束后使用离线角色分离功能处理，离线模式的效果通常优于实时模式。

录音文件识别 TaskId 与文件 URL 的对应关系如何查询？

出于数据安全考虑，平台不保存用户传入的业务数据（如 FileUrl），无法提供 TaskId 与资源 URL 的对应关系或脱敏链接。建议在自身业务系统中建立 TaskId 与请求参数（如 FileUrl）的映射记录，以便后续通过接口返回的 TaskId 回溯核对具体的音频资源和语音时长。

如何查看 Paraformer 模型调用权限？

登录智能语音交互控制台，找到 paraformer-realtime-v2 模型，单击模型权限流控设置，查看状态是否为已授权以确认权限。

性能类

ASR语音识别和TTS语音合成超并发会有什么现象？

超并发可能会出现以下情况：

查看日志会有大量超时现象，具体服务状态码为40000005，表示请求数量过多。
如果并发量较大时会导致ASR语音识别和TTS语音合成断开连接。

免费用户有什么限制？

一句话识别、实时语音识别：最多同时发送2路语音识别。
录音文件识别：新用户试用期3个月内，每隔24小时可免费识别2小时时长的文件转写服务。免费额度用完后，间隔24小时后可继续试用。

并发数是如何计算的？

并发数指同一个账号（阿里云UID）同时在处理的请求数。

一般语音请求的处理都会延续一段时间，例如用户新建一个语音识别请求，持续发送语音数据给服务端，这时并发数就是1；在这个请求处理的同时，同一用户又新建了另一个请求，开始发送语音数据，这时服务端同时在处理这个账号的两个请求，并发数就变成2。

SDK使用类

智能语音交互是否提供相关的源码呢？

SDK协议及源码已经开源，具体请参见Github。目前开源的有C++、Java和Python语言版本。

如有需要研究智能语音交互的协议架构，可以参考Github中的源码实现。建议您直接使用智能语音交互产品提供的SDK版本进行集成，具体请参见从这里开始。对自行研究协议实现的API很难提供更多支持。

智能语音交互的Android SDK支持在多进程中初始化多个实例吗？

目前不支持。

语音合成SDK播放声音有播放完成的监听吗，确认下有没有播放语音模块？

播放不属于SDK，SDK只有合成事件。

音频数据必须连续发送吗？

音频数据必须连续发送。

服务端在超过一定时间未接到语音数据（10秒）会超时断开连接，返回40000004错误信息。如果需要再次发送数据，客户端需要重新发起请求。

音频数据发送中断后，为什么还会收到服务器发回的数据？

音频数据未连续发送超时中断后，服务器上如果还有之前未处理完的数据，就会继续返回这些数据的识别结果，但是整个句子的识别已经是错误的了。

初始化失败的可能原因？

请检查是否使用正确的AccessKey ID、AccessKey Secret生成Access Token，并填入正确Appkey、Access Token、Workspace等必选参数。

开始识别失败的可能原因？

SDK为单例模式，请确认上一个识别已经结束后再开始新的识别。

为何开始识别后没有识别结果？

确认如下信息：

初始化成功。
开始识别接口调用成功，且正确使用参数vad_mode。
有音频状态回调返回且已正确开启录音。

无问题的情况下，若仍然没有识别结果，则一般会有EVENT_ASR_ERROR事件发生，根据事件携带的错误码进行定位。

报错 MESSAGE_INVALID: Invalid binary message while server state is 'ROUTING' 是什么原因？

原因是服务端尚未返回 Started 事件（状态仍为 ROUTING）时，客户端提前发送了音频流数据。解决方法：确保在收到 Started 事件回调后，再开始发送音频二进制数据。

ASR 识别报错 ASR_TIMEOUT 且 task_id 为空是什么原因？

通常是因为客户端未成功发送音频数据或网络连接问题，导致网关未收到音频。解决方法：

检查客户端是否正确推送了音频流。
若使用跨境或远程服务器，建议切换至新加坡等本地服务器测试，排除网络延迟或 VPN 不稳定影响。

计费类

实时语音识别最大并发可以买多少路？

试用版免费2路并发，3个月有效期；开通商用后默认200路并发，可单独扩充并发资源包。

英文的识别，需要购买扩展语言包还是要买路数？

英文识别需要购买扩展包和购买路数。