快速入门

本文档介绍快速入门体验,帮助您快速体验通义听悟能力。

说明

如果您需要咨询更多产品问题,欢迎通过钉钉搜索群号78410012058,加入听悟产品咨询群联系我们。

入门流程

image

准备账号

  1. 注册阿里云账号,请参见注册阿里云账号

  2. 个人实名认证,请参见个人实名认证

  3. (仅使用旧版接口或MQ回调才需要该步骤)创建并授权RAM用户,请参见创建RAM用户。关于RAM用户的更多信息,请参见什么是访问控制联系主账户在RAM控制台按以下步骤授权,使用通义听悟管控台时需要读取对象存储OSS和Rocket MQ的列表。如果RAM子账户没有读取对象存储OSS和Rocket MQ的列表的权限,会出现下图提示:image

    1. RAM控制台权限管理 > 权限策略中,创建自定义权限策略,权限策略配置内容如下:

      {
          "Version": "1",
          "Statement": [
              {
                  "Effect": "Allow",
                  "Action": "oss:ListBuckets",
                  "Resource": "acs:oss:*:*:*"
              },
              {
                  "Effect": "Allow",
                  "Action": "mq:QueryInstanceBaseInfo",
                  "Resource": "acs:mq:*:*:*"
              }
          ]
      }
    2. RAM控制台身份管理 > 用户中,找到RAM子账户,单击操作列的添加权限,选择上一步创建的自定义策略,和系统策略中的“AliyunTingwuFullAccess”管理通义听悟服务(Tingwu)的权限,授予RAM子账户。image.png

创建AccessKey

重要
  1. 在调用阿里云API时您需要使用AccessKey完成身份验证。AccessKey包括AccessKey ID和AccessKey Secret,需要一起使用。

  2. RAM用户的AccessKey Secret只在创建时显示,不支持查看,请妥善保管。

  1. 创建阿里云账号的AccessKey

    登录RAM访问控制台,使用阿里云账号创建AccessKey。具体操作,请参见创建AccessKey使用阿里云账号创建ak.png

  2. 创建RAM用户的AccessKey(可选)

    使用阿里云账号登录RAM访问控制台,为RAM用户创建AccessKey。具体操作,请参见创建AccessKey

    使用ram账号创建ak.png

开通服务

  1. 登录通义听悟控制台

  2. 在概览页单击立即开通

  3. 产品开通页面,选择服务类型。

    1. 选择试用。新开通服务的用户可免费试用90天。

    2. 选择商用。开通后按通过接口请求的时长计量计费,通义听悟API服务会根据实际使用量从您的阿里云账户余额中扣费。

    说明

    商用版详细计费规则,请前往计费说明查看。

    服务能力

    免费试用期间权益

    试用期过后如何继续使用

    实时记录

    • 实时并发限制:2路。

    1. 服务管理与开通页面将实时记录服务升级为商用版。

    2. 升级为商用版之后,进入后付费按时长计费模式。

    3. 商用版实时并发限制:200路

    音视频文件记录

    • 上传文件:每天免费使用额度为2小时(音频时长)。

    • 当日免费额度用完后,需等待24小时后才可以继续使用。

    1. 服务管理与开通页面将音视频文件记录服务升级为商用版。

    2. 升级为商用版之后,进入后付费按时长计费模式。

创建项目

  1. 通义听悟控制台左侧导航栏,单击我的项目

  2. 我的项目页,单击创建项目(如首次创建项目则也可单击立即创建)。

    image

    1. 输入项目名称。image

    2. 选择回调方式。

      • 如选择HTTP post协议,需要输入URL。通义听悟会向配置的HTTP URL发送post请求,返回的HTTP status为200则检查通过。

      • 如选择不设置回调主动轮询,则需要调用API轮询接口。

      • 如选择Rocket MQ 的 HTTP,需要先创建一个Rocket MQ4.0实例,创建以“TOPIC_TINGWU_”开头的topic。通义听悟会向配置的RocketMQ通过HTTP协议发送消息,消息写入成功则检查通过。

        image

        说明
        • 通义听悟API服务的RAM账号将获取 Rocket MQ 的服务授权。仅支持Rocket MQ 4.0实例,且topic必须以“TOPIC_TINGWU_”开头。

        • 选择HTTP post协议或Rocket MQ回调方式,通义听悟会向配置的回调地址发送连通性检查消息:{"Code":"0","Data":{"Test":"checkSyncConf+时间戳"},"Message":"success.","RequestId":"xxxxxx"}。

    3. 选择对象存储(仅旧版接口需要),如下拉列表中无所需Bucket可单击右侧创建对象存储bucket。

      通义听悟会向项目配置的OSS Bucket里写入一个测试文件tingwu/initfile.txt,写入成功则检查通过。image

      说明

      建议Bucket与项目的Region相同,跨Region会降低数据存储成功率;通义听悟将在此Bucket下,按每次请求的以tingwu开头的object写入处理结果数据。

    4. 选择MQ回调或设置OSS时,听悟服务会自动判断您的子账号权限。若无授权,请联系主账号按本文档顶部“准备账号第3步进行操作”。

    5. 输入项目描述(可选)。

测试效果(可选)

  1. 通义听悟控制台我的项目列表页,单击项目列表右侧操作列的服务效果测试

    image

  2. 测试中文、英文和粤语的识别准确率。

    1. 当测试语言如果选择中文/英文/粤语,选择测试方式为麦克风输入,单击开始录音,可查看实时识别的转写结果,60s后自动停止识别。单击确认,返回项目列表页。

      image.png

    2. 当测试语言如果选择中文/英文/粤语,选择测试方式为音频文件,单击上传本地文件,上传成功后,可查看识别后的转写结果,上传的音频文件可在线播放。单击确认,返回项目列表页。更多语种、大模型及翻译功能的免费可视化测试,请移步通义听悟网页

      image.png

开发接入

根据以上几步获取到账号对应的AccessKey ID、AccessKey Secret以及项目Appkey,必须确保这几项数值归属同一阿里云账号或同一RAM用户。

开发接入

能力说明

音视频文件转写

通过通义听悟API处理音视频文件,在转写结果的基础上,分离发言人并进行发言总结,提取章节速览、要点提炼、摘要总结、口语书面化、PPT提取及摘要等。

实时记录

实时处理音频流,转写成文字,并支持中、英、日、韩语间的双向实时互译,实现实时多语种字幕,确保跨国交流无障碍。在实时记录结束后,可开启说话人分离、章节速览、要点提炼、摘要总结、口语书面化等功能链路。