基本概念

本文为您介绍通义听悟的相关概念,以便于更好地理解本产品。

音频采样率(sample rate)

音频采样率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。

目前语音识别服务支持16000Hz和8000Hz两种采样率,其中电话业务一般使用8000Hz,其余业务使用16000Hz。

调用语音识别服务时,如果语音数据采样率高于16000Hz,需要先把采样率转换为16000Hz才能发送给语音识别服务;如果语音数据采样率是8000Hz,请勿将采样率转换为16000Hz,项目中选用支持8000Hz采样率的模型。

采样位数(sample size)

采样值或取样值,即是将采样样本幅度量化。用来衡量声音波动变化的参数,或是声卡的分辨率。数值越大、分辨率越高,发出声音的能力越强。

目前语音识别中常用的采样位数为16 bit小端序。即每次采样的音频信息用2字节保存,或者说2字节记录1/16000s的音频数据。

每个采样数据记录的是振幅,采样精度取决于采样位数的大小:

  • 1字节(8比特)记录256个数,亦即将振幅划分为256个等级。

  • 2字节(16比特)记录65536个数。

其中2字节采样位数已经能够达到CD标准。

语音编码(format)

语音数据存储和传输的方式。注意语音编码和语音文件格式不同,如常见的WAV文件格式,会在其头部定义语音数据的编码,其中的音频数据通常使用PCM、AMR或其他编码。

说明

在调用通义听悟服务之前需确认语音数据编码格式是服务所支持的。

项目标识(Appkey)

在通义听悟控制台中创建的每个项目都有一个唯一标识,即Appkey。当您调用智能语音服务时必须提供Appkey,服务通过Appkey获得项目的具体配置信息。

当存在多个业务需要智能语音服务,如电话客服场景和手机输入法场景,各场景需要的语音能力是不同的,只有当项目配置与业务场景匹配才能获得最佳效果。

访问标识(AccessKey)

程序访问阿里云API的凭证,登录AccessKey管理页面,创建并查看访问标识。

访问标识由ID和Secret两部分构成:AccessKey ID是类似身份的标识,AccessKey Secret的作用是签名您的访问参数,防止数据被篡改。两者必须组合使用。其中AccessKey Secret类似登录密码,不要向任何人泄漏。

中间结果(intermediate result)

在调用语音识别服务时可以设置是否返回中间结果:

  • 设置为false时,只在语音全部识别完后返回一次完整的结果。

  • 设置为true时,除了最后一次完整的结果之外,还会在您说话的同时返回中间结果。

如一段语音,识别最终结果是“你好阿里巴巴”。在启用中间结果后,会在您说话的同时返回5次结果,如下所示。

你
你好
你好啊
你好阿里
你好阿里巴巴
说明

中间结果可能在后续返回结果中被修正。

中间结果增量返回的字数不固定,并不是每次都比上一次多识别一个字。

action_id

每一个语音服务请求都会有一个唯一的action_id,由接口自动生成,用于定位问题。

多路音频流

在线会议场景下所特有的一路混音数据流+多路发言人数据流。

Protobuf​

是Google公司开发的一种数据描述语言。用于通义听悟识别在线多人会议时对多通道语音流数据封装结构的描述。

章节速览

能够将音视频中的内容按主题进行分段,总结每段标题,并提取段落信息摘要。方便快速理解内容结构与上下文关系。

摘要总结

使用通义千问大模型能力,进行的全文摘要、发言总结(需开通发言人分离)、问答回顾、思维导图。均在转写完成后,可调用对应能力。支持中英双语。

要点提炼

包含关键词、待办事项、场景识别和重点内容提取四个AI能力。在转写完成后进行处理。

PPT抽取及摘要

将视频中演示的PPT进行抽取,并对每页PPT讲解的内容进行摘要总结,解决了无法索要PPT的问题,同时对应了PPT与讲解语音。该功能整合了语音、语言、图像三种模态的AI能力。