客户可能有多个业务需要智能语音服务,比如客服场景和司法场景,每个场景需要的语音能力是不同的,Appkey就是用来区别客户不同业务场景的标识。只有在Appkey项目中设置了合适的场景,才能获得理想的效果。
“非流式”模式也叫“普通”模式,“普通”模式下服务判断用户整句话说完后才返回一次识别结果。而“流式”模式下用户一边说话一边返回识别结果,在句子结束的识别结果前面会有很多中间结果。
每种服务支持的格式不尽相同,请参考各服务中的说明表格。可以使用常见音频编辑软件如Audacity查看音频文件的编码格式。
目前语音识别服务仅支持16KHz和8KHz两种采样率,其他采样率如48KHz建议重采样到16KHz然后调用语音识别服务。请注意选择和您的语音文件采样率对应的Appkey。
可以使用常见音频编辑软件如Audacity查看音频文件的采样率,也可以使用开源命令行工具 FFmpeg查看。
目前不支持本地离线的语音识别,必须把音频数据发送到服务端做识别。
智能语音交互服务的域名如下:wss://nls-gateway.cn-shanghai.aliyuncs.com/ws/v1 。
目前未提供此功能,客户拿到识别结果后可以按需处理。
支持英文识别,请在管控台的配置项目语音识别模型中选择英文模型。要求语音采样率为16KHz,该服务只支持欧美人说英语,不支持中国腔英语。
语音识别服务支持方言识别,具体的方言模型使用请在管控台中进行设置,可参考 管理项目文档。
实时语音识别服务可以断开多句话。一句话识别服务的每个请求只对应一句话,无法断开。
一句话识别和实时语音识别限制最多同时发送2路语音做识别。录音文件识别每自然日最多识别2小时时长的录音文件。
一句话识别支持60s以内的实时语音。实时语音识别不限制时长。
token重新获取不会影响已获取的token有效性,token的有效性只与时间有关。
由于服务器的IP范围很广,不能提供IP白名单。
排查方式:1、运行阿里云提供的对应demo,做一下对比,记录并提供日志信息。2、记录请求对应的taskid,方便排查问题。3、客户端抓包,确定网络情况。
在文档使用中是否遇到以下问题
更多建议
匿名提交