全部产品
弹性计算 会员服务 网络 安全 移动云 数加·大数据分析及展现 数加·大数据应用 管理与监控 云通信 阿里云办公 培训与认证 更多
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 智能硬件

常见问题

更新时间:2018-05-18 16:07:49

以下是智能语音服务常见问题列表:

  1. 服务开通问题
  2. 服务使用问题
  3. SDK调用问题

1. 服务开通问题

1.1 怎么开通服务?

访问阿里云官网—>数加—>智能语音交互。点击获取使用资格,注册信息。等待审核。审核通过后会收到邮件和短信提醒。然后再返回智能语音交互页面,点击进入管理控制台。开通智能语音交互公测。

1.2 怎么确认我开通了服务?

登录 智能语音交互服务页面,查看是否有 管理控制台 按钮。如果没有说明未开通成功,需要单击 立即开通 ,按上一条答案操作开通。

1.3 找不到Access id 和Access Secret 在哪里?

请按照账号和服务申请文档中的步骤创建子账号获得Access id 和Access Secret。

1.4 智能语音服务可以使用RAM子账号吗?

可以使用。只要主账号开通了智能语音服务,子账号默认也可以使用,不需要额外授权。目前不支持单独禁用某个RAM子账号的语音权限。

2. 服务使用问题

2.1 Appkey是什么?

客户可能有多个业务需要智能语音服务,比如客服场景和输入法场景,每个场景需要的语音能力是不同的,Appkey就是用来区别客户不同业务场景的标识。只有选用了和业务场景相匹配的Appkey才能获得理想的效果。

2.2 “流式”模式和“非流式”模式识别的区别?

“非流式”模式也叫“普通”模式,“普通”模式下服务判断用户整句话说完后才返回一次识别结果。而“流式”模式下用户一边说话一边返回识别结果,在句子结束的识别结果前面会有很多中间结果。

2.3 语音识别服务支持哪些编码格式的音频?

每种服务支持的格式不尽相同,请参考 语音识别(ASR) 简介中的说明表格。可以使用常见音频编辑软件如Audacity查看音频文件的编码格式。

2.4 语音识别服务支持哪些采样率?

目前语音识别服务仅支持16KHz和8KHz两种采样率,其他采样率如48KHz建议重采样到16KHz然后调用语音识别服务。请注意选择和您的语音文件采样率对应的Appkey。

2.5 怎么查看音频文件的采样率?

可以使用常见音频编辑软件如Audacity查看音频文件的采样率,也可以使用开源命令行工具 FFmpeg查看。

2.6 语音转文字支持离线功能吗?

目前不支持本地离线的语音识别,必须把文本发送到服务端做识别。

2.7 现在有对识别结果进行敏感词屏蔽吗?

目前未提供此功能,客户拿到识别结果后可以按需处理。

2.10 语音识别服务支持英文识别吗?

支持英文识别。要求语音采样率为16KHz,请到对应服务页面查找对应Appkey使用。该服务只支持欧美人说英语,不支持中国腔英语。

2.11 语音识别服务支持方言识别吗?

目前有两个支撑支持方言的appkey,分别是nls-service-yue-streaming支持粤语;和nls-realtime-fangyan支持四川、东北、河南话。两个appkey都要求语音采样率为16KHz。

2.12 语音识别能否自动断开多句话?

实时语音服务可以断开多句话。一句话识别服务的每个请求只对应一句话,无法断开。

2.13 免费用户有什么限制?

一句话识别和实时识别限制最多同时发送10路语音做识别。录音文件识别每自然日最多提交2000个文件做识别。

2.14 服务请求时长限制?

一句话识别支持60s以内的实时语音。实时语音识别不限制时长。

3. SDK调用问题

3.1. 为什么语音识别准确率很低,有时只识别出几个字?

请检查音频数据的采样率与选用的Appkey是否一致。

3.2 确认调用方式和采样率都没问题,识别还是不准确怎么办?

用户可以使用自定义热词功能,自定义常用词,可以快速、实时提高准确率。

3.3 音频数据必须连续发送吗?

音频数据必须连续发送。服务端在超过一定时间未接到语音数据(一句话识别是10秒,实时长语音识别是20秒)会超时断开连接,返回408错误信息。如果需要再次发送数据,客户端需要重新发起请求。

3.4 音频数据发送中断后,为什么还会收到服务器发回的数据?

音频数据未连续发送超时中断后,服务器上如果还有之前未处理完的数据,就会继续返回这些数据的识别结果,但是整个句子的识别已经是错误的了。

3.5 语音识别的返回结果json中 endtime =-1是什么意思?

表示当前句子未结束。当语音识别模式为"流式"时,才会存在中间结果。

3.6 服务端返回的状态码都有哪些?

  • HTTP状态200表示请求成功。
  • HTTP状态4XX表示客户端错误。
  • HTTP状态5XX表示服务端错误。
状态 status_code CloseFrame状态码 HTTP语义
成功 200 1000 成功处理
请求格式有误 400 4400 错误请求
需要鉴权信息 401 4401 请求要求身份验证
鉴权失败 403 4403 服务器拒绝请求
超出最大并发量 429 4429 太多请求
请求超时 408 4408 处理请求超时
处理出错 500 4500 服务器内部错误
服务不可用 503 4503 服务不可用

- 错误码400,错误信息check text frame params failed

请求字段有错误。 如appkey填错了、没有设置access信息等等。 注意查看请求参数。

- 离线文件转写 错误码400,错误信息 file download failed

查看出问题的文件的oss地址,在浏览器是否能够直接访问?开放访问权限是否开通。

- 错误码403 错误信息“Verify authorization failed!” 是什么意思?

这是鉴权失败的错误。请确认账号已经开通了智能语音服务,并在调用时正确设置了akId,akSecret, Appkey等参数。

请确认客户端机器时间是否为标准北京时间,如果时间不准也会导致此错误。

本文导读目录