文档

CreateTask - 创建听悟任务

更新时间:
一键部署

创建听悟任务,包括创建离线转写任务和实时会议任务。

调试

您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。

授权信息

下表是API对应的授权信息,可以在RAM权限策略语句的Action元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下:

  • 操作:是指具体的权限点。
  • 访问级别:是指每个操作的访问级别,取值为写入(Write)、读取(Read)或列出(List)。
  • 资源类型:是指操作中支持授权的资源类型。具体说明如下:
    • 对于必选的资源类型,用背景高亮的方式表示。
    • 对于不支持资源级授权的操作,用全部资源表示。
  • 条件关键字:是指云产品自身定义的条件关键字。
  • 关联操作:是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限,操作才能成功。
操作访问级别资源类型条件关键字关联操作
tingwu:CreateTaskWrite
  • acs:tingwu::{#accountId}:*

请求语法

PUT /openapi/tingwu/v2/tasks

请求参数

名称类型必填描述示例值
typestring

任务类型:

  • offline:表示离线任务,比如离线转写
  • realtime:表示实时任务,比如创建实时记录
offline
operationstring

操作项,可选取值:

  • start:表示任务的创建,也是默认值,通常情况下无须显示设置
  • stop:停止实时会议任务,对应的是创建实时会议,在会议结束后设置为 stop 并触发调用;实时会议场景使用;

需要注意:在结束实时记录时,务必设置此参数,且设置为 stop。

stop
bodyobject

请求参数 body

AppKeystring

在管控台创建的项目 AppKey。

JV1sRTisRMi****
Inputobject

创建任务时设置的基本信息参数。注意不同的任务类型所需设置的必选参数并不相同。

  • 当 type=offline,也即离线任务时,您必须设置 SourceLanguage 和 FileUrl 参数;

  • 当 type=realtime,也即实时会议任务时,您必须额外设置 SourceLanguage、Format、SampleRate 参数;

SourceLanguagestring

音频转写使用的语言模型。 支持以下取值:

  • cn:中文
  • en:英文
  • fspk:中英文自由说
  • ja:日文
  • yue:粤语
cn
FileUrlstring

当您创建离线转写任务,设置的原始音视频文件的 http(s)链接

http://xxx.com/zzz/1.wav
TaskKeystring

用户设置的自定义标识,用以关联本任务。

task_tingwu_123
Formatstring

您创建实时会议时,需通过该参数指定音频流数据的编码格式,比如 pcm。当前支持以下取值:

  • pcm
  • opus
  • aac
  • speex
  • mp3
pcm
SampleRateinteger

您创建实时会议时,需通过该参数指定音频流数据的采样率。当前支持 8000 和 16000。

  • 8000:电话客服类场景
  • 16000:实时会议音频采集场景
16000
ProgressiveCallbacksEnabledboolean

是否开启回调功能。 当需要开启回调功能时,您需要在控制台配置好回调类型和地址,并在创建任务时将该参数置为 true。

false
MultipleStreamsEnabledboolean

是否开启多通道音频流识别。当且仅当在实时记录场景下才需考虑设置,默认为 false

false
TaskIdstring

您创建实时记录时返回的 TaskId,通过此 Id,您可以结束实时记录。该参数仅在结束实时记录时设置,其他时候请不要设置。

9922c84c087044eda18659c128b56c84
Parametersobject

创建任务时设置的算法相关参数。您可以按需设置。

Transcodingobject

音视频或音频流转码转换模块

TargetAudioFormatstring

是否将原始音视频文件或音频流转成 mp3 格式保存,目前仅支持设置为 mp3 格式。在创建离线文件转写或实时会议时可选。

mp3
TargetVideoFormatstring

是否将原始视频文件转成 mp4 格式保存,目前仅支持设置为 mp4 格式。仅在创建离线文件转写且原始文件为视频格式时设置此参数有意义,通常无须设置。

mp4
VideoThumbnailEnabledboolean

是否将原始视频文件抽取视频缩略图并保存。仅在创建离线文件转写且原始文件为视频格式时设置此参数有意义,通常无须设置。

false
SpectrumEnabledboolean

是否将原始音视频文件或音频流生成音频波形图并保存,目前仅支持设置为 mp3 格式。在创建离线文件转写或实时会议时可选。

false
Transcriptionobject

语音转写控制参数。

AudioEventDetectionEnabledboolean

是否在语音转写过程中开启声音事件检测功能,用以判断音频中是否存在比如 music 等事件。

false
DiarizationEnabledboolean

是否开启说话人分离功能

false
Diarizationobject

说话人分离功能参数

SpeakerCountinteger

设置说话人分离参数。

不设置:不使用说话人角色区分。

0:说话人角色区分结果为不定人数。

2:说话人角色区分结果为 2 人。

2
OutputLevelinteger

设置语音识别结果返回等级。默认值是 1。

  • 1:识别出完整句子时返回识别结果;

  • 2:识别出中间结果及完整句子时返回识别结果

2
AdditionalStreamOutputLevelinteger

设置实时记录场景下活跃说话人对应的语音识别结果返回等级。

  • 1:识别出完整句子时返回识别结果;

  • 2:识别出中间结果及完整句子时返回识别结果;

仅在实时记录场景下且 MultipleStreamsEnabled=true 时按需设置,离线转写场景无须设置。

1
PhraseIdstring

热词的词表 ID

ce9c2a34b6d847bf92a77d0a196f****
TranslationEnabledboolean

是否启用翻译功能。

false
Translationobject

翻译功能控制参数。

TargetLanguagesarray

翻译功能开启时需设置目标语言。支持中英日。

string

翻译功能开启时设置的目标语言。 支持以下取值:

  • cn:中文
  • en:英文
  • ja:日文
en
OutputLevelinteger

设置实时语言翻译识别结果返回等级。默认值是 1。

  • 1:识别出完整句子时返回识别结果;
  • 2:识别出中间结果及完整句子时返回识别结果。

仅在实时记录场景下按需设置,离线转写场景无须设置。

2
AdditionalStreamOutputLevelinteger

设置实时记录场景下活跃说话人对应的语言翻译识别结果返回等级。

  • 1:识别出完整句子时返回识别结果;
  • 2:识别出中间结果及完整句子时返回识别结果;

仅在实时记录场景下且 MultipleStreamsEnabled=true 时按需设置,离线转写场景无须设置。

1
AutoChaptersEnabledboolean

是否启用章节速览功能,开启后会生成章节标题和章节摘要结果。

true
MeetingAssistanceEnabledboolean

是否启用智能纪要功能,开启后会生成关键词、重点内容、待办等结果。

false
MeetingAssistanceobject

智能纪要功能控制参数,支持待办事项、关键词、重点内容的算法处理。 若您启用 MeetingAssistanceEnabled 但未通过 MeetingAssistance 设置算法类型,则默认都进行调用和返回。

Typesarray

开启智能功能时,需传入期望的功能参数类型,支持待办(Actions)、关键信息(KeyInformation)。其中关键信息包含关键词和重点内容(关键句)

string

设置智能纪要功能的算法类型。可设置以下取值:

  • Actions:待办事项
  • KeyInformation:关键信息处理,含关键词、重点内容等
Actions
SummarizationEnabledboolean

是否启用摘要功能,开启后会可以生成全文摘要、发言人总结等结果

false
Summarizationobject

摘要功能控制参数。

Typesarray

开启摘要功能时,需传入期望的摘要类型,支持全文摘要(Paragraph)、发言人总结摘要(Conversational)、问答回顾摘要(QuestionsAnswering)。

string

开启摘要功能时,需传入期望的摘要类型。

  • Paragraph:全文摘要
  • Conversational:发言人总结摘要
  • QuestionsAnswering:问答回顾摘要
Paragraph
PptExtractionEnabledboolean

是否启用 PPT 抽取和 PPT 总结功能,开启后会对视频文件中的 PPT 进行画面抽取,并形成对应的总结。 该参数建议仅在离线转写且源文件是视频文件时开启。在实时记录场景及离线转写但源文件仅是音频输入场景下无法生成结果。

false
TextPolishEnabledboolean

是否启用口语书面化功能。

false
ExtraParamsobject

扩展参数,通常情况无须设置。

NfixEnabledboolean

是否启用 nfix,通常情况无须设置。

true

返回参数

名称类型描述示例值
object

Schema of Response

RequestIdstring

请求 ID,仅用于联调。

35124E1C-AE99-5D6C-A52E-BD689D8D****
Codestring

状态码。

0
Messagestring

状态说明。

Success.
Dataobject

返回对象。

TaskIdstring

任务 id

c5394c6ee0fb474899d42215a3925c7e
TaskKeystring

用户创建任务时设置的自定义标识。

task_tingwu_123
MeetingJoinUrlstring

实时记录场景下生成的音频流推送地址,您可以在后续实时音频流识别时通过该地址进行

wss://tingwu-realtime-cn-beijing.aliyuncs.com/api/ws/v1?mc=****
TaskStatusstring

任务状态

ONGOING

示例

正常返回示例

JSON格式

{
  "RequestId": "35124E1C-AE99-5D6C-A52E-BD689D8D****",
  "Code": "0",
  "Message": "Success.",
  "Data": {
    "TaskId": "c5394c6ee0fb474899d42215a3925c7e",
    "TaskKey": "task_tingwu_123",
    "MeetingJoinUrl": "wss://tingwu-realtime-cn-beijing.aliyuncs.com/api/ws/v1?mc=****",
    "TaskStatus": "ONGOING"
  }
}

错误码

访问错误中心查看更多错误码。

变更历史

变更时间变更内容概要操作
2024-03-18API 内部配置变更,不影响调用看变更集
变更项变更内容
API 内部配置变更,不影响调用
2024-03-18OpenAPI 返回结构发生变更看变更集
变更项变更内容
出参OpenAPI 返回结构发生变更
2024-03-15API 内部配置变更,不影响调用看变更集
变更项变更内容
API 内部配置变更,不影响调用
2024-03-12OpenAPI 返回结构发生变更看变更集
变更项变更内容
出参OpenAPI 返回结构发生变更
2024-01-08API 内部配置变更,不影响调用看变更集
变更项变更内容
API 内部配置变更,不影响调用
2023-12-19API 内部配置变更,不影响调用看变更集
变更项变更内容
API 内部配置变更,不影响调用
2023-12-18API 内部配置变更,不影响调用看变更集
变更项变更内容
API 内部配置变更,不影响调用
2023-12-11API 内部配置变更,不影响调用看变更集
变更项变更内容
API 内部配置变更,不影响调用
2023-11-20API 内部配置变更,不影响调用看变更集
变更项变更内容
API 内部配置变更,不影响调用
2023-11-16API 内部配置变更,不影响调用看变更集
变更项变更内容
API 内部配置变更,不影响调用
  • 本页导读 (0)
文档反馈