从这里开始

智能语音交互产品基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。本文为您介绍智能语音交互产品功能和功能体验等内容。

产品使用介绍

阿里云智能语音交互将为您提供如下服务:

  • 语音识别产品:语音识别产品使用介绍

    • 实时语音识别服务:对长时间的语音数据流进行识别,适用于会议演讲、视频直播等长时间不间断识别的场景。

    • 一句话识别服务对一分钟内的短语音进行识别,适用于对话聊天,控制口令等较短的语音识别场景。

    • 录音文件识别服务:对上传的音频文件进行识别,适用于非实时识别场景。

  • 语音合成产品:语音合成产品使用介绍

    • 语音合成服务:将文本转化为接近真人的语音服务,包含男女童音、多语言和方言,适用于智能客服、电话外呼等虚拟对话场景。

    • 长文本语音合成服务:将超长文本(十万字)合成为接近真人的语音服务,包含男女童音、多语言和方言(且拥有音频重复使用权),适用于文学伴读、新闻阅读等场景。

    • 离线语音合成:在弱网或无网状态下,通过设备本地的语音合成模型,将文本转换成自然流畅的语音。

  • 自学习平台:自学习平台使用介绍

    • 自学习服务:使用自学习服务提供的训练热词和定制语言模型功能,提升识别效果。

  • 个性化人声定制服务:设备获取用户录制的少量语音,系统逐条检测录音质量后上传音频,自动化训练个性化人声模型。

  • 设备端语音交互NUI SDK:为您提供在智能音箱、语音IoT家电等需要远近场语音交互的智能硬件设备端的语音解决方案。

功能体验

通过以下方式,可快速体验语音识别、语音合成、录音文件识别和自学习平台等功能。

  1. 进入智能语音交互产品首页

  2. 单击顶部菜单栏的功能体验

  3. 在功能体验区域您可体验产品功能。

    功能

    说明

    语音识别

    单击语音识别,在下方左侧区域用鼠标按住“话筒”图标开始录音,在右侧识别结果区域将实时展示语音识别的结果。语音识别

    语音合成

    单击语音合成,在下方示例文本输入框中输出您要合成的内容,在场景区域中选择一种发音模型,自定义识别音量和语速,设置完成后单击立即合成即可听到被合成的音频。语音合成

    录音文件识别

    单击录音文件识别,在下方选择识别模型后上传您的音频文件,单击开始识别,系统将会自动识别出语音内容,单击播放图标可以播放识别结果。录音文件识别

    自学习平台

    阿里云官方对某些场景(包括通用、教育、客服、金融等)进行了大量语音识别训练,提供了高准确率场景模型。如果您需要的语音识别服务场景不在所提供的模型范围内,或者需要对标准模型进行更进一步优化,可以通过自学习平台,达成优化目的。自学习平台常用的优化方法有:语言模型、热词模型、声学模型。语言模型和热词主要针对由于特定领域、场景,导致识别模型对部分字词或段落识别不准的问题,声学模型解决由于噪音、方言等导致的识别问题。你可选择语言模型声学模型进行训练。自学习平台

操作步骤

快速入门文档介绍使用智能语音服务需要的步骤,帮助您快速开通服务、创建测试项目和调用语音服务。

  1. 准备账号

  2. 开通服务

  3. 创建项目

  4. (语音识别、语音合成项目)配置项目

  5. (设备端解决方案)运行SDK