全部产品

服务使用问题

更新时间:2020-11-06 14:34:14

本文为您解答服务使用的相关问题。

appkey是什么?

您可能有多个业务需要智能语音服务,如客服场景和司法场景,每个场景需要的语音能力是不同的。appkey就是用来区别不同业务场景的标识。只有在appkey项目中设置了合适的场景,才能获得理想的效果。

“流式”模式和“非流式”模式识别的区别?

“非流式”模式也叫“普通”模式,“普通”模式下服务判断用户整句话说完后才返回一次识别结果。而“流式”模式下用户一边说话一边返回识别结果,在句子结束的识别结果前会有很多中间结果。

语音识别服务支持哪些编码格式的音频?

每种服务支持的格式不尽相同,请参见各服务中的说明。您可以使用常见音频编辑软件如Audacity,查看音频文件的编码格式。

语音识别服务支持哪些采样率?

目前语音识别服务仅支持16KHz和8KHz两种采样率,其他采样率如48KHz建议重采样到16 KHz,再调用语音识别服务。请注意选择和语音文件采样率对应的appkey。

怎么查看音频文件的采样率?

可以使用常见音频编辑软件如Audacity查看音频文件的采样率,也可以使用开源命令行工具FFmpeg查看。

语音识别服务支持离线功能吗?

目前不支持本地离线的语音识别,必须将音频数据发送至服务端做识别。

智能语音交互能的域名是什么?

智能语音交互服务的域名:wss://nls-gateway.cn-shanghai.aliyuncs.com/ws/v1 。

说明

HTTP协议需开放80端口;HTTPS协议需开放443端口。

现在有对识别结果进行敏感词屏蔽吗?

目前未提供此功能。您获取识别结果后可以按需处理。

语音识别服务支持英文识别吗?

支持英文识别。请在管控台的配置项目语音识别模型中选择英文模型。要求语音采样率为16 KHz。

该服务支持但不限于英式、美式及中式等口音的英语。

语音识别服务支持方言识别吗?

语音识别服务支持方言识别。具体方言模型请在管控台中进行设置。更多信息,请参见管理项目

语音识别能否自动断开多句话?

实时语音识别服务可以断开多句话;一句话识别服务的每个请求只对应一句话,无法断开。

免费用户有什么限制?

  • 一句话识别/实时语音识别:最多同时发送2路语音识别。

  • 录音文件识别:每自然日最多识别2小时时长的录音文件。

服务请求时长限制?

  • 一句话识别支持60s以内的实时语音。

  • 实时语音识别不限制时长。

token重新获取会不会导致已获取的token失效?

token重新获取不会影响已获取token的有效性,有效性只与时间有关。token的有效期通过服务端响应消息的ExpireTime参数获取。更多信息,请参见获取Token协议说明

是否可以提供服务的IP白名单?

由于服务器的IP范围很广,不能提供IP白名单。

实时语音识别,识别慢、超时问题?

排查方式:

  1. 运行阿里云提供的示例,和您的服务对比运行状态,记录并提供日志信息。

  2. 记录请求对应的taskid,方便排查问题。

  3. 客户端使用TCPDump(Linux)/Wireshark(Windows)等抓包工具,确定网络状况。