全部产品
云市场

基本概念

更新时间:2020-06-16 11:43:56

本文向您介绍智能语音交互服务中的一些相关概念,以便于更好地理解本产品。

采样率(sample rate)

音频采样率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。

目前语音识别服务只支持16000Hz和8000Hz两种采样率,其中电话业务一般使用8000Hz,其余业务使用16000Hz。在智能语音管理控制台中新建的项目默认只接受16000Hz的语音,如果您的音频数据是8000Hz,可以对项目进行编辑,改用8000Hz的模型。

调用语音识别服务时,需要设置采样率。参数值、语音数据和项目需按要求配置,否则识别效果可能不会好。如果语音数据采样率高于16000Hz,需要先把采样率转换为16000Hz才能发送给语音识别服务;如果语音数据采样率是8000Hz,请勿将采样率转换为16000Hz,项目中选用支持8000Hz采样率的模型。

采样位数(sample size)

采样值或取样值,即是将采样样本幅度量化。用来衡量声音波动变化的参数,也可以说是声卡的分辨率。数值越大,分辨率越高,发出声音的能力越强。

目前语音识别中常用的采样位数为16bits小端序,即每次采样的音频信息用2字节保存,或者说2字节记录1/16000 s的音频数据。

每个采样数据记录的是振幅, 采样精度取决于采样位数的大小:

  • 1字节(也就是8bit)记录256个数, 也就是将振幅划分为256个等级。
  • 2字节(也就是16bit)记录65536个数。

其中2字节采样位数已经能够达到CD标准。

语音编码(format)

语音数据存储和传输的方式。注意语音编码和语音文件格式不同,如常见的WAV文件格式,会在其头部定义语音数据的编码,其中的音频数据通常使用PCM、AMR或其他编码。

在调用智能语音交互服务之前应当确认自己的语音数据编码格式是服务所支持的。

声道(sound channel)

声音在录制时在不同空间位置采集的相互独立的音频信号,所以声道数也就是声音录制时的音源数量。常见的音频数据为单声道或双声道(立体声)。

说明:除录音文件识别以外的服务只支持单声道(mono)语音数据,如果您的数据是双声道或其他,需要先转换为单声道。

逆文本规整(inverse text normalization)

语音转换为文本时使用标准化的格式来展示数字、金额、日期和地址等对象,以符合阅读习惯。以下是一些示例:

语音原始文本 开启ITN的识别结果
百分之二十 20%
一千六百八十元 1680元
五月十一号 5月11号
请拨幺幺零 请拨110

项目标识(Appkey)

您可以在智能语音交互管理控制台中创建多个项目,每个项目有一个唯一标识即Appkey。当您调用智能语音服务时必须提供Appkey,服务通过Appkey获得项目的具体配置信息。

当有多个业务需要智能语音服务,如电话客服场景和手机输入法场景,每个场景需要的语音能力是不同的,只有项目配置和业务场景相匹配才能获得最佳效果。

访问标识(access key)

程序访问阿里云API的凭证。

访问标识由ID和Secret两部分构成:AccessKey ID是类似身份的标识,AccessKey Secret的作用是签名您的访问参数,防止数据被篡改。两者必须组合使用,其中AccessKey Secret类似登录密码,不要向任何人泄漏。登录管理页面,创建并查看访问标识。

访问令牌(access token)

访问智能语音交互服务的凭证,提供有效期控制,您可以通过AccessKey ID和AccessKey Secret获取访问令牌。对于手机等设备端调用智能语音服务的场景,可以在服务端获取令牌,发送给设备端使用,可有效避免Access key泄露。

中间结果(intermediate result)

在调用语音识别服务时可以设置是否返回中间结果:

  • 设置为false时只在语音全部识别完后返回一次完整的结果。
  • 设置为true时除了最后一次完整的结果之外,还会在您说话的同时返回中间结果。

例如一段语音,识别最终结果是“你好阿里巴巴”,在启用中间结果后可能如下面所列在您说话的同时返回5次。

  1. 你好
  2. 你好啊
  3. 你好阿里
  4. 你好阿里巴巴

说明:

  • 中间结果可能在后续返回结果中被修正。
  • 中间结果增量返回的字数不固定,并不是每次都比上一次多识别一个字。

task_id

每一个语音服务请求都会有一个唯一的task_id,由SDK自动生成,用于定位问题。