全部产品
云市场

相关术语

更新时间:2019-01-25 16:39:25

本部分将向您介绍智能语音服务产品中的一些相关概念,以便于您更好地理解本产品。

语音术语

采样率(sample rate)

音频采样率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。

目前语音识别服务只支持16000Hz和8000Hz两种采样率,其中8000Hz一般是电话业务使用,其余都使用16000Hz。在智能语音管控台中新建的项目默认只接受16000Hz的语音,如果您的音频数据是8000Hz,可以编辑项目,改用8000Hz的模型。

调用语音识别服务时,您需要设置采样率参数。参数数值,您的语音数据和项目配置三者必须一致,否则识别效果会非常差。如果您的语音数据采样率高于16000Hz,需要先把采样率转换为16000Hz才能发送给语音识别服务。如果您的语音数据采样率是8000Hz的,请不要把采样率转换为16000Hz,应该在项目中选用支持8000Hz采样率的模型。

采样位数(sample size)

即采样值或取样值(就是将采样样本幅度量化)。它是用来衡量声音波动变化的一个参数,也可以说是声卡的分辨率。它的数值越大,分辨率也就越高,所发出声音的能力越强。

每个采样数据记录的是振幅, 采样精度取决于采样位数的大小:

  • 1 字节(也就是8bit) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级;
  • 2 字节(也就是16bit) 可以细到 65536 个数, 这已是 CD 标准了;
  • 4 字节(也就是32bit) 能把振幅细分到 4294967296 个等级, 实在是没必要了.

语音编码(format)

语音编码指语音数据存储和传输的方式。请注意,语音编码和语音文件格式不同。例如常见的.WAV文件格式,会在其头部定义语音数据的具体编码,其中的音频数据通常是使用PCM编码,但也有可能是AMR或其他编码。

语音编码相关的概念比较复杂,这里只做基本介绍。您在调用智能语音服务服务之前应当确认自己的语音数据编码格式是服务所支持的。

声道(sound chanel)

声道是指声音在录制时在不同空间位置采集的相互独立的音频信号,所以声道数也就是声音录制时的音源数量。常见的音频数据为单声道或双声道(立体声)。

除录音文件识别以外的服务只支持单声道(mono)语音数据,如果您的数据是双声道或其他,需要先转换为单声道才能识别。

逆文本规整(ITN)

逆文本规整(inverse text normalization)是指语音转换为文本时使用标准化的格式来展示数字、金额、日期和地址等对象,以便符合通常的阅读习惯。以下是一些例子:

语音原始文本 开启ITN的识别结果
百分之二十 20%
一千六百八十元 1680元
五月十一号 5月11号
请拨幺幺零 请拨110

本服务相关概念

项目标识(Appkey)

您可以在智能语音管控台中创建多个项目,每个项目有一个唯一标识,就是Appkey。当您调用智能语音服务时必须提供Appkey,服务通过Appkey获得项目的具体配置信息。

您可能有多个业务需要智能语音服务,比如电话客服场景和手机输入法场景,每个场景需要的语音能力是不同的。只有项目配置和业务场景相匹配才能获得最好的效果。您应当在智能语音管控台为不同的业务分别创建项目,并恰当地配置您的项目。

访问标识(access key)

访问标识是您的程序访问阿里云API的凭证,能提供此凭证的程序具有您账户完全的权限,请您务必妥善保管。访问标识由id和secret两部分组成:Access key ID 是类似身份的标识,而 access key secret 的作用是签名您的访问参数,以防被篡改。两者必须组合使用,其中Access key secret 类似您的登录密码,不要向任何人泄漏。可以在管理页面创建和查看您的访问标识。

访问令牌(access token)

访问令牌是您访问智能语音服务的凭证,提供有效期控制,您可以通过akId和akSecret获取访问令牌。对于手机等设备端调用智能语音的场景,可以在服务端获取令牌,发送给设备端使用,有效避免您的Access key泄露。

中间结果(intermediate result)

在调用语音识别服务时可以设置是否返回中间结果。

  • 设置为false时只在语音全部识别完后返回一次完整的结果
  • 设置为true时除了最后一次完整的结果之外,还会在您说话的同时返回中间结果。

例如一段语音,识别最终结果是“你好阿里巴巴”,在启用中间结果后可能如下面所列在您说话的同时返回5次。

  1. 你好
  2. 你好啊
  3. 你好阿里
  4. 你好阿里巴巴

注意:

  • 中间结果可能在后续返回结果中被修正,如你好啊 -> 你好阿里
  • 每次中间结果增量返回的字数并不固定,并不是每次都比上一次多识别一个字,如你好阿里->你好阿里巴巴

task_id

每一个语音服务请求都会有一个唯一的task_id,由SDK自动生成,可用于定位问题。