全部产品

接口说明

更新时间:2020-09-10 18:51:02

随着智能硬件的迅速发展,以及对语音交互的迫切需求,我们设计了具有全链路语音能力的NUI(Natural User Interaction)SDK。SDK聚合了端&云语音核心算法能力,包括远场信号处理、语音唤醒、语音识别、语义理解及语音合成等语音交互全链路模块。通过十分简单的接口,快速完成对产品的语音赋能。

注意

目前提供的prebuilt SDK仅适用于炬芯ATS3605D芯片定制Linux系统软件环境,使用双路数据及一路参考声道(总共三路)作为输入,算法效果仅在特定设备上有效,其他芯片支持敬请期待。

功能简介

需要说明的是,NUI SDK不同于智能语音交互通用SDK(一句话识别、实时识别、语音合成、长文本语音合成),其主要用在如智能音箱、儿童教育故事机、语音IoT家电等需要远近场语音交互的智能硬件设备端。和智能语音交互通用SDK比,NUI SDK提供了一套完整的端到端远场语音解决方案。

设备端语音交互SDK特性

  • 远场信号处理

    在远场语音交互场景中,智能设备通常要面对设备回声、人声干扰、环境噪声、房间混响等诸多不利声学因素的影响。NUI SDK提供了一套音频前端系统来对原始音频进行增强,提高目标信号的信噪比和语音可懂度,从而提升人机/人人交互的用户体验。

  • 语音唤醒

    支持定制词语的唤醒模型。当SDK检测到有人说出该词后,便抛出唤醒信号。唤醒服务支持多个唤醒词和命令词,从唤醒词录制到模型训练完成大约需要2~3周时间。

  • 人声检测

    为了节约设备计算资源、减少端侧功耗,NUI SDK自建人声检测功能,只有通过人声检测的音频才会发送给云端进行语音识别。

  • 在线语音识别

    对时长较短(一分钟以内)的语音进行识别。适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息和语音对话等。

  • 在线语音合成

    语音合成服务,通过先进的深度学习技术,将文本转换成自然流畅的语音。多种音色可供您选择,并提供调节语速、语调和音量等功能。

NUI SDK与其他原子SDK区别

对比项

语音识别SDK(含一句话识别、实时语音识别和录音文件识别)

语音合成SDK(含语音合成、长文本语音合成)

NUI SDK

打断唤醒能力

×

×

远场降噪

×

×

命令词&快捷词

×

×

人声检测

×

×

语音识别

语音合成

计费方式

  • 实时语音识别和录音文件识别按语音时长计费。

  • 一句话识别按调用次数计费。

按调用次数或字数计费。

按激活台数计费。

服务地址

访问类型

说明

URL

外网访问

所有服务器均可使用外网访问服务URL(SDK中默认设置了外网访问URL)。

wss://nls-gateway.cn-shanghai.aliyuncs.com/ws/v1

交互状态机

交互系统分为4个状态,分别为:

  • UNINIT:未初始化状态(默认状态)。

  • STOP:暂停状态。SDK初始化后处于STOP状态。

  • IDLE:待机状态。该状态接收语音输入可以进行语音唤醒,当发生唤醒事件后SDK仍然处于IDLE状态,可以通过interactive接口直接切换至INTERACTIVE状态。

  • INTERACTIVE:识别状态。该状态可以接收音频输入,当识别结束或者识别出错则会自动切换至IDLE状态。

状态切换

每个状态的交互特性如下表所示。

特性

UNINIT

STOP

IDLE

INTERACTIVE

是否接收外部音频输入

是否可唤醒

是否可进行语音识别