功能发布记录

本文介绍智能语音交互产品功能的最新动态和相关文档。

2023年04月~2024年01月

功能分类

功能名称

功能描述

更新类型

文档链接

语音识别

字幕上屏

录音文件识别、录音文件识别极速版、录音文件识别闲时版支持字幕上屏场景。

新增

接口说明

语音识别

DashScope灵积模型服务

高性价比实时语音识别上线。

新增

实时语音识别API详情

语音合成

轻量化语音合成

新增轻量化语音合成音色定制。

新增

个性化人声定制

语音合成

DashScope灵积模型服务

高性价比语音合成上线。

新增

语音合成

语音识别

DashScope灵积模型服务

模型服务—录音文件识别,支持的语种/方言包括:中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话)、英语、日语、韩语、西班牙语、印尼语、法语、德语、意大利语、马来语。

新增

录音文件识别API详情

语音合成

小语种音色

语音合成新增以下小语种音色:俄语、韩语、越南语、泰语、意大利语、西班牙语、法语、德语、美式英文(男女声)。

新增

接口说明

语音识别

方言

新增16k粤中自由说方言模型。

新增

语音识别

语音合成

数字人、多情感音色

新增7个数字人音色:知小白、知小夏、知小妹、知柜、知硕、艾夏、Cally。

新增2个多情感音色:知锋、知冰。

新增

语音合成

2022年03月~2023年03月

功能分类

功能名称

功能描述

更新类型

文档链接

语音识别

新增语音分析分类4项新产品规格

新产品规格:

  1. 声音事件检测

  2. 说话人识别

  3. 性别识别

  4. 语种识别

新增

语音分析

录音文件支持MP4格式入参

3个服务支持MP4入参:

  • 录音文件识别

  • 录音文件识别极速版

  • 录音文件识别闲时版

新增

接口说明

移动端Android/iOS SDK

  1. 支持【长文本语音合成】。

  2. 支持STS安全访问。

  3. 更高准确率的离线鉴权方案。

  4. iOS支持xcode14。

新增

SDK和API概览

Cpp SDK

  1. 支持windows x86 x64,支持ue5。

  2. windows C#支持,支持unity。

  3. 支持长文本语音合成。

  4. 支持国有化平台Linux-Aarch64。

  5. CXX11支持。

  6. 增加录音文件识别功能。

新增

SDK和API概览

新增 16k 识别能力

中英自由说(混合识别)、粤语(繁体)、葡萄牙语、土耳其语、希腊语、爪哇语、孟加拉语、捷克语、乌尔都语、尼泊尔语、蒙古语(外蒙)、乌兹别克语、僧伽罗语、马拉地语、泰卢固语、旁遮普语、瑞典语、保加利亚语、加泰罗尼亚语、希伯来语、克罗地亚语、豪萨语、缅甸语、老挝语、斯瓦希里语、阿塞拜疆语、波斯语、丹麦语、挪威语、马拉雅拉姆语、坎纳达语。

新增

语音识别

新增 8k 识别能力

粤语(繁体)、越南语、泰语、马来语、西班牙语。

新增

语音识别

热词添加数量扩充

由原来每组128个词扩充至500个词。

优化

概述

语音合成

增加拼音级音素时间戳

语音合成、实时长文本语音合成、异步长文本语音合成服务,新增拼音级音素时间戳。

新增

语音合成时间戳功能介绍

增加逐字时间戳

实时长文本语音合成服务新增逐字时间戳功能。

优化

语音合成时间戳功能介绍

新增多情感音色

语音合成、实时长文本语音合成、异步长文本语音合成服务中,新增支持音色:

  • 知妙_多情感

  • 知燕_多情感

  • 知贝_多情感

  • 知甜_多情感

  • 知米_多情感

新增

接口说明

新增多语种音色

语音合成、实时长文本语音合成、异步长文本语音合成服务中,新增支持音色:

  • 菲律宾语女声

  • 越南语女声

  • 俄语女声

  • 韩语女声

  • 美语客服女声

  • 西班牙女声

  • 意大利女声

新增

接口说明

新增中文精品音色

语音合成、实时长文本语音合成、异步长文本语音合成服务中,新增支持音色:

  • 知猫

  • 知媛

  • 知柜

  • 知雅

  • 知硕

  • 知达

  • 知悦

  • 知莎

  • Kelly中国(香港)粤语

新增

接口说明

2022年03月21日

功能分类

功能名称

功能描述

更新类型

文档链接

地域和域名

多地域

为进一步降低华北和华南用户的网络接入时延,智能语音交互产品在当前华东2(上海)地域的基础上新增华北2(北京)华南1(深圳)地域。

新增

新增:地域和域名

相关更新文档:

2022年03月04日

功能分类

功能名称

功能描述

更新类型

文档链接

语音识别

新增SDK

新增四种开发语言的SDK,包含C# SDK、Go SDK、Node.js SDK和微信小程序。

新增

语音合成

新增SDK

新增四种开发语言的SDK,包含C# SDK、Go SDK、Node.js SDK和微信小程序。

新增

2022年02月17日

功能分类

功能名称

功能描述

更新类型

文档链接

语音识别

优化SDK功能

优化C++ SDK功能。

优化

语音合成

优化SDK功能

优化C++ SDK功能。

优化

C++ SDK

2022年02月09日

功能分类

功能名称

功能描述

更新类型

文档链接

语音识别

录音文件识别闲时版

  • 泰米尔(16K)

  • 波兰语(16K)

  • 乌克兰语(16K)

  • 罗马尼亚语(16K)

  • 荷兰语(16K)

  • 匈牙利语(16K)

  • 高棉语(16K)

  • 菲律宾(16K, 8K)

  • 西班牙(16K, 8K )

  • 印尼(8K)

  • 越南(8K)

新增

语音识别服务支持的方言模型和语种都有哪些?

2022年01月21日

功能分类

功能名称

功能描述

更新类型

文档链接

语音识别

录音文件识别闲时版

录音文件识别闲时版是针对已经录制完成的录音文件,进行离线识别的服务。与录音文件识别区别在于返回时间不同,闲时版为24小时内返回结果。

新增

录音文件识别闲时版

语音合成

新增音色-中文

  • 治愈童声杰力豆

  • 东北男声老铁

  • 萝莉女声知薇

  • 直播女声老妹

  • 天津男声艾侃

  • 台湾女声 zhiqing

  • 甜美女声 zhitian

新增

新增音色-多语种

  • 美语女声 Annie

  • 菲律宾语女声 Tala

新增

2021年12月23日

功能分类

功能名称

功能描述

更新类型

文档链接

语音识别

优化SDK功能

优化Python SDK功能。

优化

语音合成

优化SDK功能

优化Python SDK功能。

优化

Python SDK

2021年07月30日

功能分类

功能名称

功能描述

更新类型

文档链接

语音识别

识音石模型

识音石模型替换17种通用或领域模型。

优化

控制台

管理项目

优化项目创建流程,创建后自动引导配置识别模型或合成声音。

优化

管理项目

自学习-定制语言模型

优化语音模型定制流程,加强对数据格式要求的说明,避免引导不清造成的误操作;细化报错提示信息,提供建议解决方法。

优化

定制语言模型

自动化测试

增加测试结果查看的快捷操作按钮。

优化

自动化测试

产品计费

计量计费报表规则说明

加强控制台对计量计费统计结果展示规则(当日用量和费用次日可查看)的说明。

优化

2021年07月08日

功能分类

功能名称

功能描述

更新类型

文档链接

语音识别

C++ SDK优化

上线C++ SDK 3.0.10用户文档。

优化

解决C++ SDK处理websocket数据的crash问题。

优化

俄语识别优化

解决俄语识别空格丢失的问题。

优化

语音合成

新增声音

  • 超高清场景:萝莉童声-知薇

  • 直播场景:东北老铁-老铁、吆喝女声-老妹

  • 童声: 治愈男童-杰力豆

新增

语音合成接口说明

引擎更新

超高清场景声音支持流式播放。

新增

提升合成服务稳定性。

优化

英文声音停顿优化

更新英文Abby,Emily和Eric,解决某些句子出现长停顿的问题。

优化

2021年06月03日

功能分类

功能名称

功能描述

更新类型

相关链接

语音识别

语义断句更新

实时转写在开启语义断句后,识别的中间结果默认进行流式itn处理,解决字幕上屏场景中,数字闪现跳变问题(从汉字数字变成阿拉伯数字)。

优化

语音合成

支持离线语音合成免费试用及自助接入

  • 用户可以免费试用5个标准版离线语音合成SDK和5个精品版离线语音合成SDK

  • 支持购买商用版SDK,永久授权。

新增

模型更新

  • 增加艾飞、艾伦2个直播-视频配音声音

  • 增加知飞、知伦2个超高清场景声音

  • 增加ava美式英语声音

新增

引擎更新

支持英文SSML标签中的say-as标签

新增

SSML标记语言介绍

SDK更新

SDK从原本采样率只支持8K/16K扩充至可支持24K/48K设置

增加

2021年05月13日

功能分类

功能名称

功能描述

更新类型

相关链接

语音识别

识音石V1-端到端中文普通话识别模型

  • 识别准确率高:

    基于自研端到端的语音识别框架,中文识别准确率可达业内最高水平。在客服,输入法,会议等领域识别字错误率相比上一代系统相对下降10%~30%。

  • 同时支持实时和离线语音识别,支持8k和16k模型。

  • 识别速度快:

    采用“字”级别建模单元及自研模型推理引擎,并发推理速度相比业内主流推理框架提升10倍以上;服务响应毫秒级延迟。

新增

识音石V1·识音

后处理模型更新

  • 修复英文ITN时间戳问题。

  • 修复ITN离线时间戳的输出平台差异的问题。

  • 修复流式ITN尾部多空格的问题。

  • 解决典型缺陷:

    • 二十三十年 -> 二十三十年

    • 一百零二年 -> 102年

    • 文一西路九六九号 ->文一西路969号

优化

VAD模型更新

common_8k人机噪声优化版模型发布上线。

优化

角色分离模型更新

  • 8k有监督角色分离算法增加并行化模式,单次请求到拿到输出结果变得更快。

  • 增加对噪声的鲁棒性,进一步减少噪声干扰导致的单角色输出缺陷。

优化

语音合成

新增界面化下载功能

在管控台语音合成配置页面中,增加了采样率、格式的调整功能,并增加了下载功能。

新增

给小白的TTS工具——不懂代码也能合成并下载音频

引擎更新

优化超高清场景性能。

优化

模型更新

增加知祥、知倩、知楠、知德、知茹、知佳6个超高清场景声音。

新增

2021年03月23日

功能分类

功能名称

功能描述

更新类型

文档链接

语音合成

新增离线语音合成

离线语音合成能力发布。

新增

接口说明

新增超高清合成声音

新增超高清声音:知琪、知厨。

新增

接口说明

新增合成声音

  • 新增发音人:粤语女声佳佳、粤语女声桃子、日语男声智也、日语男声智香、美式英语Annie、印尼语女声Indah。

  • 文学场景资讯声音:艾笑、艾树、艾茹、艾倩。

  • 直播场景:柜姐、Stella等。

新增

接口说明

优化停顿控制

整体升级前端停顿模型,增加后处理规则,客服、小说、新闻、百科等领域的不可接受率有显著的下降。

优化

词典及数字符号正则化规则修复

  • 增加词条,如:“䶮(yan3),熀(huang3)”。

  • 修复中文多音字的合成发音问题,如:“新冠肺炎、新冠病毒、新冠疫苗”等。

  • 优化数字符号正则化规则,如:“新增对罗马数字1到10的大小写”。

  • 增加英式及美式英语部分词条,如:“EB病毒,iOS”。

  • 印尼语正则化规则及词典更新。

修复

语音识别

中文普通话模型

提升生僻字识别效果;提升8k-通用-电话客服模型对小音量语音的识别效果。

优化

中文普通话模型(升级版)

  • 提升噪音场景下识别效果。

  • 提升生僻字识别效果。

  • 提升普通话中混杂的口音的识别效果。

  • 提升对鬼畜音频的识别效果,减少识别结果中的异常重复现象。

  • 提升直播场景下中英混读的识别效果。

优化

录音文件识别(包括极速版)增加对音频通道选择的参数

对于多通道文件,用户可通过参数指定需要转写的通道,可略过不需要转写的通道以节省成本。

新增

接口说明

录音文件识别(包括极速版)增加语义断句功能

可通过参数控制是否开启语义断句功能。

新增

接口说明

产品文档更新

  • 关于方言,口音,增加更多通俗易懂的说明。

  • 增加产品应用视频。

  • 增加录音文件识别调用QPS的相关说明。

新增

接口说明

2020年11月27日

功能分类

功能名称

功能描述

更新类型

相关文档

语音识别

录音文件识别极速版

录音文件识别极速版支持全场景的语音识别模型,管控台支持录音文件识别极速版的调用量查询。

新增

接口说明

语音识别对WAV文件的支持优化

优化ASR对WAV文件的支持。支持更多格式的WAV文件头,减少文件头对识别结果的影响。

优化

录音文件识别极速版超时

录音文件识别极速版使用16k模型进行8k语音识别时没有直接返回错误,导致超时断开的问题。

修复

访问令牌

令牌生成机制优化

改进令牌生成机制,增加令牌有效期,避免原有“每24小时更新令牌”机制下,可能造成的请求失败发生。

优化

获取Token

2020年08月23日

功能分类

功能名称

功能描述

更新类型

相关文档

语音合成

语音合成新增资源和场景配置

  • 语音合成的SSML增加资源标签,可解析“多模态交互使用的离线资源”,并可取代时间戳中每个字的位置信息。

  • 语音合成的RESTful接口支持在管控台配置说话人、音量、语速和语调参数功能,方便接口调参配置。

  • 语音合成新增文学场景发音人:艾楠、艾颜、艾浩、艾茗,为您提供更多选择。

新增

接口说明

语音识别

实时语音识别断句时长优化

实时语音识别默认最大断句时长由60秒缩短至15秒,方便您进行相关接口调用。

优化

接口说明

语音识别通用模型和客服质检问题修复

  • 语音识别16k中文通用模型,改善语音活动检测(Voice Activity Detectio)效果,解决纯静音数据误检出语音的问题。

  • 语音识别8k中文客服质检/8k英文客服质检/16k韩语模型:语言模型常规更新,修复部分识别有误的场景。

修复

接口说明

2020年07月23日

功能分类

功能名称

功能描述

更新类型

相关文档

自学习训练

自学习模型开发免费使用

自学习模型全面开放免费使用,为您提供零成本个性化语音定制服务,助力业务创新。

新增

概述

自学习平台训练流程

  • 新增推荐最佳基线模型,方便您进行训练。

  • 结合自动化测试,增加模型可量化的测试指标结果

新增

概述

语音合成

长文本语音合成

长文本RESTful接口集成字幕能力对外正式发布,官网开发文档上线。

新增

RESTful API

SDK

上线Android/iOS双端新版SDK

  • Android SDK体积减少34.6%、iOS SDK体积减少17.5%,经历日亿次调用次数考验,稳定性极强。

  • 完善SDK的状态管理(开/关音频、数据推送等),您可以专注业务实现而无需进行复杂的状态与线程管理。

  • 与全链路解决方案保持接口一致。后续可无缝对接唤醒、声音、对话理解、离线语音合成等智能语音交互场景。

优化

语音识别

语音识别问题修复

英文后处理效果优化,解决部分情况下,启用标点后识别结果格式错误的问题。

修复

2020年07月09日

功能分类

功能名称

功能描述

更新类型

相关文档

语音识别

语音识别模型优化

一句话识别/实时语音识别/录音文件识别8K音频采样率的英文识别模型更新,在通用测试集字识别准确率没有下降的情况下,提升模型口音覆盖的广度,同时在语言模型上更加通用。

优化

接口说明

语音合成

语音合成模型修复

  • Abby(发音人名称):降低漏字率。

  • Wendy(发音人名称):解决较长文本合成不稳定的问题。

  • 英文场景:解决英文文本出现非标空格导致单词解析失败的情况,提高单词识别准确率。

  • 中文场景:修复多音字和分词问题。

修复