本文介绍智能语音交互产品功能的最新动态和相关文档。
2023年04月~2024年01月
功能分类 | 功能名称 | 功能描述 | 更新类型 | 文档链接 |
语音识别 | 字幕上屏 | 录音文件识别、录音文件识别极速版、录音文件识别闲时版支持字幕上屏场景。 | 新增 | |
语音识别 | DashScope灵积模型服务 | 高性价比实时语音识别上线。 | 新增 | |
语音合成 | 轻量化语音合成 | 新增轻量化语音合成音色定制。 | 新增 | |
语音合成 | DashScope灵积模型服务 | 高性价比语音合成上线。 | 新增 | |
语音识别 | DashScope灵积模型服务 | 模型服务—录音文件识别,支持的语种/方言包括:中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话)、英语、日语、韩语、西班牙语、印尼语、法语、德语、意大利语、马来语。 | 新增 | |
语音合成 | 小语种音色 | 语音合成新增以下小语种音色:俄语、韩语、越南语、泰语、意大利语、西班牙语、法语、德语、美式英文(男女声)。 | 新增 | |
语音识别 | 方言 | 新增16k粤中自由说方言模型。 | 新增 | |
语音合成 | 数字人、多情感音色 | 新增7个数字人音色:知小白、知小夏、知小妹、知柜、知硕、艾夏、Cally。 新增2个多情感音色:知锋、知冰。 | 新增 |
2022年03月~2023年03月
功能分类 | 功能名称 | 功能描述 | 更新类型 | 文档链接 |
语音识别 | 新增语音分析分类4项新产品规格 | 新产品规格:
| 新增 | |
录音文件支持MP4格式入参 | 3个服务支持MP4入参:
| 新增 | ||
移动端Android/iOS SDK |
| 新增 | ||
Cpp SDK |
| 新增 | ||
新增 16k 识别能力 | 中英自由说(混合识别)、粤语(繁体)、葡萄牙语、土耳其语、希腊语、爪哇语、孟加拉语、捷克语、乌尔都语、尼泊尔语、蒙古语(外蒙)、乌兹别克语、僧伽罗语、马拉地语、泰卢固语、旁遮普语、瑞典语、保加利亚语、加泰罗尼亚语、希伯来语、克罗地亚语、豪萨语、缅甸语、老挝语、斯瓦希里语、阿塞拜疆语、波斯语、丹麦语、挪威语、马拉雅拉姆语、坎纳达语。 | 新增 | ||
新增 8k 识别能力 | 粤语(繁体)、越南语、泰语、马来语、西班牙语。 | 新增 | ||
热词添加数量扩充 | 由原来每组128个词扩充至500个词。 | 优化 | ||
语音合成 | 增加拼音级音素时间戳 | 语音合成、实时长文本语音合成、异步长文本语音合成服务,新增拼音级音素时间戳。 | 新增 | |
增加逐字时间戳 | 实时长文本语音合成服务新增逐字时间戳功能。 | 优化 | ||
新增多情感音色 | 语音合成、实时长文本语音合成、异步长文本语音合成服务中,新增支持音色:
| 新增 | ||
新增多语种音色 | 语音合成、实时长文本语音合成、异步长文本语音合成服务中,新增支持音色:
| 新增 | ||
新增中文精品音色 | 语音合成、实时长文本语音合成、异步长文本语音合成服务中,新增支持音色:
| 新增 |
2022年03月21日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 文档链接 |
地域和域名 | 多地域 | 为进一步降低华北和华南用户的网络接入时延,智能语音交互产品在当前华东2(上海)地域的基础上新增华北2(北京)和华南1(深圳)地域。 | 新增 | 新增:地域和域名 相关更新文档:
|
2022年03月04日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 文档链接 |
语音识别 | 新增SDK | 新增四种开发语言的SDK,包含C# SDK、Go SDK、Node.js SDK和微信小程序。 | 新增 |
|
语音合成 | 新增SDK | 新增四种开发语言的SDK,包含C# SDK、Go SDK、Node.js SDK和微信小程序。 | 新增 |
2022年02月17日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 文档链接 |
语音识别 | 优化SDK功能 | 优化C++ SDK功能。 | 优化 | |
语音合成 | 优化SDK功能 | 优化C++ SDK功能。 | 优化 |
2022年02月09日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 文档链接 |
语音识别 | 录音文件识别闲时版 |
| 新增 |
2022年01月21日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 文档链接 |
语音识别 | 录音文件识别闲时版 | 录音文件识别闲时版是针对已经录制完成的录音文件,进行离线识别的服务。与录音文件识别区别在于返回时间不同,闲时版为24小时内返回结果。 | 新增 | |
语音合成 | 新增音色-中文 |
| 新增 | |
新增音色-多语种 |
| 新增 |
2021年12月23日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 文档链接 |
语音识别 | 优化SDK功能 | 优化Python SDK功能。 | 优化 |
|
语音合成 | 优化SDK功能 | 优化Python SDK功能。 | 优化 |
2021年07月30日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 文档链接 |
语音识别 | 识音石模型 | 识音石模型替换17种通用或领域模型。 | 优化 | 无 |
控制台 | 管理项目 | 优化项目创建流程,创建后自动引导配置识别模型或合成声音。 | 优化 | |
自学习-定制语言模型 | 优化语音模型定制流程,加强对数据格式要求的说明,避免引导不清造成的误操作;细化报错提示信息,提供建议解决方法。 | 优化 | ||
自动化测试 | 增加测试结果查看的快捷操作按钮。 | 优化 | ||
产品计费 | 计量计费报表规则说明 | 加强控制台对计量计费统计结果展示规则(当日用量和费用次日可查看)的说明。 | 优化 | 无 |
2021年07月08日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 文档链接 |
语音识别 | C++ SDK优化 | 上线C++ SDK 3.0.10用户文档。 | 优化 | |
解决C++ SDK处理websocket数据的crash问题。 | 优化 | 无 | ||
俄语识别优化 | 解决俄语识别空格丢失的问题。 | 优化 | 无 | |
语音合成 | 新增声音 |
| 新增 | |
引擎更新 | 超高清场景声音支持流式播放。 | 新增 | 无 | |
提升合成服务稳定性。 | 优化 | 无 | ||
英文声音停顿优化 | 更新英文Abby,Emily和Eric,解决某些句子出现长停顿的问题。 | 优化 | 无 |
2021年06月03日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 相关链接 |
语音识别 | 语义断句更新 | 实时转写在开启语义断句后,识别的中间结果默认进行流式itn处理,解决字幕上屏场景中,数字闪现跳变问题(从汉字数字变成阿拉伯数字)。 | 优化 | 无 |
语音合成 | 支持离线语音合成免费试用及自助接入 |
| 新增 | |
模型更新 |
| 新增 | 无 | |
引擎更新 | 支持英文SSML标签中的say-as标签 | 新增 | ||
SDK更新 | SDK从原本采样率只支持8K/16K扩充至可支持24K/48K设置 | 增加 | 无 |
2021年05月13日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 相关链接 |
语音识别 | 识音石V1-端到端中文普通话识别模型 |
| 新增 | |
后处理模型更新 |
| 优化 | 无 | |
VAD模型更新 | common_8k人机噪声优化版模型发布上线。 | 优化 | 无 | |
角色分离模型更新 |
| 优化 | 无 | |
语音合成 | 新增界面化下载功能 | 在管控台语音合成配置页面中,增加了采样率、格式的调整功能,并增加了下载功能。 | 新增 | |
引擎更新 | 优化超高清场景性能。 | 优化 | 无 | |
模型更新 | 增加知祥、知倩、知楠、知德、知茹、知佳6个超高清场景声音。 | 新增 | 无 |
2021年03月23日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 文档链接 |
语音合成 | 新增离线语音合成 | 离线语音合成能力发布。 | 新增 | |
新增超高清合成声音 | 新增超高清声音:知琪、知厨。 | 新增 | ||
新增合成声音 |
| 新增 | ||
优化停顿控制 | 整体升级前端停顿模型,增加后处理规则,客服、小说、新闻、百科等领域的不可接受率有显著的下降。 | 优化 | 无 | |
词典及数字符号正则化规则修复 |
| 修复 | 无 | |
语音识别 | 中文普通话模型 | 提升生僻字识别效果;提升8k-通用-电话客服模型对小音量语音的识别效果。 | 优化 | 无 |
中文普通话模型(升级版) |
| 优化 | 无 | |
录音文件识别(包括极速版)增加对音频通道选择的参数 | 对于多通道文件,用户可通过参数指定需要转写的通道,可略过不需要转写的通道以节省成本。 | 新增 | ||
录音文件识别(包括极速版)增加语义断句功能 | 可通过参数控制是否开启语义断句功能。 | 新增 | ||
产品文档更新 |
| 新增 |
2020年11月27日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 相关文档 |
语音识别 | 录音文件识别极速版 | 录音文件识别极速版支持全场景的语音识别模型,管控台支持录音文件识别极速版的调用量查询。 | 新增 | |
语音识别对WAV文件的支持优化 | 优化ASR对WAV文件的支持。支持更多格式的WAV文件头,减少文件头对识别结果的影响。 | 优化 | 无 | |
录音文件识别极速版超时 | 录音文件识别极速版使用16k模型进行8k语音识别时没有直接返回错误,导致超时断开的问题。 | 修复 | 无 | |
访问令牌 | 令牌生成机制优化 | 改进令牌生成机制,增加令牌有效期,避免原有“每24小时更新令牌”机制下,可能造成的请求失败发生。 | 优化 |
2020年08月23日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 相关文档 |
语音合成 | 语音合成新增资源和场景配置 |
| 新增 | |
语音识别 | 实时语音识别断句时长优化 | 实时语音识别默认最大断句时长由60秒缩短至15秒,方便您进行相关接口调用。 | 优化 | |
语音识别通用模型和客服质检问题修复 |
| 修复 |
2020年07月23日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 相关文档 |
自学习训练 | 自学习模型开发免费使用 | 自学习模型全面开放免费使用,为您提供零成本个性化语音定制服务,助力业务创新。 | 新增 | |
自学习平台训练流程 |
| 新增 | ||
语音合成 | 长文本语音合成 | 长文本RESTful接口集成字幕能力对外正式发布,官网开发文档上线。 | 新增 | |
SDK | 上线Android/iOS双端新版SDK |
| 优化 | 无 |
语音识别 | 语音识别问题修复 | 英文后处理效果优化,解决部分情况下,启用标点后识别结果格式错误的问题。 | 修复 | 无 |
2020年07月09日
功能分类 | 功能名称 | 功能描述 | 更新类型 | 相关文档 |
语音识别 | 语音识别模型优化 | 一句话识别/实时语音识别/录音文件识别8K音频采样率的英文识别模型更新,在通用测试集字识别准确率没有下降的情况下,提升模型口音覆盖的广度,同时在语言模型上更加通用。 | 优化 | |
语音合成 | 语音合成模型修复 |
| 修复 | 无 |