CreateTask - 创建听悟任务

更新时间:
复制为 MD 格式

创建听悟任务,包括创建离线转写任务和实时会议任务。

调试

您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。

调试

授权信息

下表是API对应的授权信息,可以在RAM权限策略语句的Action元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下:

  • 操作:是指具体的权限点。

  • 访问级别:是指每个操作的访问级别,取值为写入(Write)、读取(Read)或列出(List)。

  • 资源类型:是指操作中支持授权的资源类型。具体说明如下:

    • 对于必选的资源类型,用前面加 * 表示。

    • 对于不支持资源级授权的操作,用全部资源表示。

  • 条件关键字:是指云产品自身定义的条件关键字。

  • 关联操作:是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限,操作才能成功。

操作

访问级别

资源类型

条件关键字

关联操作

tingwu:CreateTask

none

*全部资源

*

请求语法

PUT /openapi/tingwu/v2/tasks HTTP/1.1

请求参数

名称

类型

必填

描述

示例值

type

string

任务类型:

  • offline:表示离线任务,比如离线转写

  • realtime:表示实时任务,比如创建实时记录

枚举值:

  • offline :

    offline

  • realtime :

    realtime

offline

operation

string

操作项,可选取值:

  • start:表示任务的创建,也是默认值,通常情况下无须显示设置

  • stop:停止实时会议任务,对应的是创建实时会议,在会议结束后设置为 stop 并触发调用;实时会议场景使用;

需要注意:在结束实时记录时,务必设置此参数,且设置为 stop。

枚举值:

  • stop :

    stop

  • start :

    start

stop

body

object

请求参数 body

AppKey

string

在管控台创建的项目 AppKey。

JV1sRTisRMi****

Input

object

创建任务时设置的基本信息参数。注意不同的任务类型所需设置的必选参数并不相同。

  • 当 type=offline,也即离线任务时,您必须设置 SourceLanguage 和 FileUrl 参数;

  • 当 type=realtime,也即实时会议任务时,您必须额外设置 SourceLanguage、Format、SampleRate 参数;

SourceLanguage

string

音频转写使用的语言模型。 支持以下取值:

  • cn:中文

  • en:英文

  • fspk:中英文自由说

  • ja:日文

  • yue:粤语

枚举值:

  • ja :

    日语

  • yue :

    粤语

  • fspk :

    中英文自由说

  • en :

    英文

  • cn :

    中文

cn

FileUrl

string

当您创建离线转写任务,设置的原始音视频文件的 http(s)链接

http://xxx.com/zzz/1.wav

TaskKey

string

用户设置的自定义标识,用以关联本任务。

task_tingwu_123

Format

string

您创建实时会议时,需通过该参数指定音频流数据的编码格式,比如 pcm。当前支持以下取值:

  • pcm

  • opus

  • aac

  • speex

  • mp3

枚举值:

  • mp3 :

    mp3

  • aac :

    aac

  • speex :

    speex

  • pcm :

    pcm

  • opus :

    opus

pcm

SampleRate

integer

您创建实时会议时,需通过该参数指定音频流数据的采样率。当前支持 8000 和 16000。

  • 8000:电话客服类场景

  • 16000:实时会议音频采集场景

枚举值:

  • 8000 :

    8000

  • 16000 :

    16000

16000

ProgressiveCallbacksEnabled

boolean

是否开启回调功能。 当需要开启回调功能时,您需要在控制台配置好回调类型和地址,并在创建任务时将该参数置为 true。

false

MultipleStreamsEnabled

boolean

是否开启多通道音频流识别。当且仅当在实时记录场景下才需考虑设置,默认为 false

false

TaskId

string

您创建实时记录时返回的 TaskId,通过此 Id,您可以结束实时记录。该参数仅在结束实时记录时设置,其他时候请不要设置。

9922c84c087044eda18659c128b56c84

OutputPath

string

LanguageHints

array

string

AudioChannelMode

string

Parameters

object

创建任务时设置的算法相关参数。您可以按需设置。

Transcoding

object

音视频或音频流转码转换模块

TargetAudioFormat

string

是否将原始音视频文件或音频流转成 mp3 格式保存,目前仅支持设置为 mp3 格式。在创建离线文件转写或实时会议时可选。

mp3

TargetVideoFormat

string

是否将原始视频文件转成 mp4 格式保存,目前仅支持设置为 mp4 格式。仅在创建离线文件转写且原始文件为视频格式时设置此参数有意义,通常无须设置。

mp4

VideoThumbnailEnabled

boolean

是否将原始视频文件抽取视频缩略图并保存。仅在创建离线文件转写且原始文件为视频格式时设置此参数有意义,通常无须设置。

false

SpectrumEnabled

boolean

是否将原始音视频文件或音频流生成音频波形图并保存,目前仅支持设置为 mp3 格式。在创建离线文件转写或实时会议时可选。

false

Transcription

object

语音转写控制参数。

AudioEventDetectionEnabled

boolean

是否在语音转写过程中开启声音事件检测功能,用以判断音频中是否存在比如 music 等事件。

false

DiarizationEnabled

boolean

是否开启说话人分离功能

false

Diarization

object

说话人分离功能参数

SpeakerCount

integer

设置说话人分离参数。

不设置:不使用说话人角色区分。

0:说话人角色区分结果为不定人数。

2:说话人角色区分结果为 2 人。

枚举值:

  • 0 :

    0

  • 2 :

    2

2

OutputLevel

integer

设置语音识别结果返回等级。默认值是 1。

  • 1:识别出完整句子时返回识别结果;

  • 2:识别出中间结果及完整句子时返回识别结果

枚举值:

  • 1 :

    识别出完整句子时返回识别结果

  • 2 :

    识别出中间结果及完整句子时返回识别结果

2

AdditionalStreamOutputLevel

integer

设置实时记录场景下活跃说话人对应的语音识别结果返回等级。

  • 1:识别出完整句子时返回识别结果;

  • 2:识别出中间结果及完整句子时返回识别结果;

仅在实时记录场景下且 MultipleStreamsEnabled=true 时按需设置,离线转写场景无须设置。

枚举值:

  • 1 :

    识别出完整句子时返回识别结果

  • 2 :

    识别出中间结果及完整句子时返回识别结果

1

PhraseId

string

热词的词表 ID

ce9c2a34b6d847bf92a77d0a196f****

Model

string

RealtimeDiarizationEnabled

boolean

ProfanityFilterEnabled

boolean

Translation

object

翻译功能控制参数。

TargetLanguages

array

翻译功能开启时需设置目标语言。支持中英日。

string

翻译功能开启时设置的目标语言。 支持以下取值:

  • cn:中文

  • en:英文

  • ja:日文

枚举值:

  • ja :

    日语

  • en :

    英语

  • cn :

    中文

en

OutputLevel

integer

设置实时语言翻译识别结果返回等级。默认值是 1。

  • 1:识别出完整句子时返回识别结果;

  • 2:识别出中间结果及完整句子时返回识别结果。

仅在实时记录场景下按需设置,离线转写场景无须设置。

枚举值:

  • 1 :

    1

  • 2 :

    2

2

AdditionalStreamOutputLevel

integer

设置实时记录场景下活跃说话人对应的语言翻译识别结果返回等级。

  • 1:识别出完整句子时返回识别结果;

  • 2:识别出中间结果及完整句子时返回识别结果;

仅在实时记录场景下且 MultipleStreamsEnabled=true 时按需设置,离线转写场景无须设置。

枚举值:

  • 1 :

    识别出完整句子时返回识别结果

  • 2 :

    识别出中间结果及完整句子时返回识别结果

1

TranslationEnabled

boolean

是否启用翻译功能。

false

AutoChaptersEnabled

boolean

是否启用章节速览功能,开启后会生成章节标题和章节摘要结果。

true

MeetingAssistanceEnabled

boolean

是否启用智能纪要功能,开启后会生成关键词、重点内容、待办等结果。

false

MeetingAssistance

object

智能纪要功能控制参数,支持待办事项、关键词、重点内容的算法处理。 若您启用 MeetingAssistanceEnabled 但未通过 MeetingAssistance 设置算法类型,则默认都进行调用和返回。

Types

array

开启智能功能时,需传入期望的功能参数类型,支持待办(Actions)、关键信息(KeyInformation)。其中关键信息包含关键词和重点内容(关键句)

string

设置智能纪要功能的算法类型。可设置以下取值:

  • Actions:待办事项

  • KeyInformation:关键信息处理,含关键词、重点内容等

枚举值:

  • Actions :

    待办事项

  • KeyInformation :

    关键信息(含关键词和重点内容)

Actions

SummarizationEnabled

boolean

是否启用摘要功能,开启后会可以生成全文摘要、发言人总结等结果

false

Summarization

object

摘要功能控制参数。

Types

array

开启摘要功能时,需传入期望的摘要类型,支持全文摘要(Paragraph)、发言人总结摘要(Conversational)、问答回顾摘要(QuestionsAnswering)。

枚举值:

  • Conversational :

    发言人总结摘要

  • QuestionsAnswering :

    问答回顾

  • Paragraph :

    全文摘要

Paragraph

string

开启摘要功能时,需传入期望的摘要类型。

  • Paragraph:全文摘要

  • Conversational:发言人总结摘要

  • QuestionsAnswering:问答回顾摘要

枚举值:

  • Conversational :

    发言人总结摘要

  • QuestionsAnswering :

    问答回顾摘要

  • Paragraph :

    全文摘要

Paragraph

PptExtractionEnabled

boolean

是否启用 PPT 抽取和 PPT 总结功能,开启后会对视频文件中的 PPT 进行画面抽取,并形成对应的总结。 该参数建议仅在离线转写且源文件是视频文件时开启。在实时记录场景及离线转写但源文件仅是音频输入场景下无法生成结果。

false

TextPolishEnabled

boolean

是否启用口语书面化功能。

false

ServiceInspectionEnabled

boolean

ServiceInspection

object

SceneIntroduction

string

InspectionIntroduction

string

InspectionContents

array<object>

object

Title

string

Content

string

SpeakerMap

object

CustomPromptEnabled

boolean

是否启用自定义 Prompt 功能。

false

CustomPrompt

object

自定义 Prompt 控制参数对象。

Contents

array<object>

自定义 Prompt 的参数列表。

object

占位符

Name

string

Prompt 的自定义名称,用于匹配输出结果。

summary-demo

Prompt

string

Prompt 的自定义内容。

总结一下下面的对话内容:{Transcription}

Model

string

指定 Prompt 的模型。

tingwu-turbo

TransType

string

指定{Transcription}标签格式。

default

ExtraParams

object

扩展参数,通常情况无须设置。

NfixEnabled

boolean

是否启用 nfix,通常情况无须设置。

true

MaxKeywords

integer

DomainEducationEnabled

boolean

OcrAuxiliaryEnabled

boolean

TranslateLlmSceneEnabled

boolean

FullTextSummaryFormat

string

TranslationHotwordMap

object

bizUserId

string

bizType

string

ContentExtractionEnabled

boolean

ContentExtraction

object

SceneIntroduction

string

ExtractionContents

array<object>

object

Title

string

Content

string

Identity

string

SpeakerMap

object

IdentityRecognitionEnabled

boolean

IdentityRecognition

object

SceneIntroduction

string

IdentityContents

array<object>

object

Name

string

Description

string

AutoChapters

object

ChapterGranularity

string

Model

string

LlmOutputLanguage

string

返回参数

名称

类型

描述

示例值

object

Schema of Response

RequestId

string

请求 ID,仅用于联调。

35124E1C-AE99-5D6C-A52E-BD689D8D****

Code

string

状态码。

0

Message

string

状态说明。

Success.

Data

object

返回对象。

TaskId

string

任务 id

c5394c6ee0fb474899d42215a3925c7e

TaskKey

string

用户创建任务时设置的自定义标识。

task_tingwu_123

MeetingJoinUrl

string

实时记录场景下生成的音频流推送地址,您可以在后续实时音频流识别时通过该地址进行

wss://tingwu-realtime-cn-beijing.aliyuncs.com/api/ws/v1?mc=****

TaskStatus

string

任务状态

ONGOING

示例

正常返回示例

JSON格式

{
  "RequestId": "35124E1C-AE99-5D6C-A52E-BD689D8D****",
  "Code": "0",
  "Message": "Success.",
  "Data": {
    "TaskId": "c5394c6ee0fb474899d42215a3925c7e",
    "TaskKey": "task_tingwu_123",
    "MeetingJoinUrl": "wss://tingwu-realtime-cn-beijing.aliyuncs.com/api/ws/v1?mc=****",
    "TaskStatus": "ONGOING"
  }
}

错误码

访问错误中心查看更多错误码。

变更历史

更多信息,参考变更详情