应用配置

完成应用创建后,您可以在应用配置页面,自由组合需要的对话能力。应用配置分为语音交互、理解与生成、技能、Agent四个主要部分。

语音交互

配置语音交互相关的功能,例如语音模型、打断方式等。

语音AI

可选择是否调用语音识别、语音合成能力,以及调用的具体模型。

  • 语音识别:支持使用阿里云百炼的语音识别模型,包括Gummy实时语音识别、Paraformer实时语音识别。

  • 语音合成:支持使用阿里云百炼的语音合成CosyVoice-v2大模型和通义千问-TTS模型。除系统音色外,还支持声音复刻能力(CosyVoice-v2大模型)。

  • 三方语音模型:支持接入三方语音模型,具体方法参见调用三方语音模型

FF320BA1-6F00-41c8-A742-74AA618C8439

使用Gummy实时语音识别、Paraformer实时语音识别模型,均可使用定制热词功能。

  • 热词数量:最多支持创建10个热词库,每个热词库最多500个词。

  • 配置方式:您可以手动添加词汇,也可以上传文件进行批量添加,文件示例详见页面说明。

image配置应用时,可以在界面中下拉选择一个热词组并添加,发布后相应热词即可生效。

20250611151432

对话打断

支持三种打断方式:任意语音打断(全双工)、点击打断(半双工)、长按对话(半双工,仅移动端支持)。

您可以在控制台选择并体验对话效果。

image

端侧算法

提供以下端侧算法能力:

  • 语音唤醒:支持默认唤醒词“小云”,移动端 Android 和 iOS 可直接使用。如需其它芯片平台或定制唤醒词,请联系商务。

  • 端侧VAD:语音活性检测,用于检测是否存在语音信号。移动端可直接使用,其他芯片平台可使用云端 VAD 方案,或联系商务进行定制。

  • AEC:回声消除,减少自身播报对语音交互的干扰。移动端 Android 和 iOS 可直接使用已集成的语音打断,其它芯片平台如需定制请联系商务。

  • 定向拾音:增强特定方向拾音,抑制甚至屏蔽其他方向声音。依赖麦克风阵列硬件布局,如需定制请联系商务。

理解与生成

配置对话理解与生成相关功能,例如文本生成模型、Prompt、知识库等。

文本模型

可选择对话中的文本生成大模型。

  • 推荐模型:推荐使用多模态交互专有模型,在口语场景具备自然、简洁、快速的对话能力。

  • 百炼模型:您也可选择阿里云百炼提供的文本生成模型。在多模态交互应用中,还可以选择“我的模型”。

可以在右侧体验区测试对话效果,选择最合适产品应用场景的模型。

image截屏2025-06-20 15

欢迎语

支持设置对话交互的欢迎语,进入对话后模型主动发起话题。如未设置,则需要用户主动提问,模型不会主动发起话题。

您可以配置一句欢迎语用于效果测试。

image

语音交互应用尚不支持通过控制台设置欢迎语。

提示词

支持自定义Prompt,用于设定对话风格和人设。

如未填写,则使用通用Prompt,适用于常见的口语对话场景。

您可以在右侧体验区测试提示词效果。

支持使用阿里云百炼的Prompt模板概述Prompt自动优化功能。

image.png

支持插入自定义变量,可以设置变量并传参。传入变量值将替换提示词中对应的变量位置。

image.png

对话变量

支持在对话输入中添加变量,为模型提供用户语音之外的更多信息,如动作行为、人脸识别结果、时间、地点、天气、周围环境等。

每轮对话中,没有传入参数的变量,将不会输入给模型进行处理。

例如,设置变量名currentWeather(当前天气)、 currentPerson(当前与AI对话的人物的名字),并传入currentWeather=36、 currentPerson=Lily,则本轮对话除传入用户问题,还会传入对应参数。

image (5)

携带上下文轮数

该参数用于控制模型参考历史对话的轮数,设为1时表示模型在回复时不会参考历史对话信息。

可设置范围为:1~10。

image

知识库

支持配置阿里云百炼创建的知识库,并进行检索设置。

开启知识库后,prompt会自动添加变量。

具体操作可查看创建和使用知识库说明文档。

image

image.png

联网搜索

由于训练数据的时效性,大模型无法准确回答如股票价格、今日资讯等时效性问题。

您可以通过开启联网搜索开关,启用联网检索功能,使大模型可以基于实时检索数据进行回复。

image

在语音交互应用中,您还可以选择开启效率模式或效果模式。image

效率模式返回结果的速度更快,效果模式返回结果的精度更高。

存储地址

如果您需要保存全量对话数据,可使用阿里云事件总线 Event Bridge 服务。

详细使用方法可查看:对话日志接入

image.png

技能

指令

指令是指由多模态交互下发,设备终端执行的任务,如打开台灯、调高音量等。

多模态交互开发套件提供一系列系统指令,您只需勾选需要的指令,对应指令将自动在对话中生效并下发。详细的指令列表请查看下文。

image.png

如果需要修改下发指令,可以在设置页中调整。image

如果您需要自定义指令,例如“打开小云电台”,可以使用自定义指令能力。

系统指令

多模态交互应用指令列表如下:

亮度设置

指令名称

指令说明

指令示例

参数名称

参数说明

参数示例

increase_brightness

调高亮度

亮度调高10

number

亮度值

亮度调高10|number=10

to

到、至、为、...

亮度调高到10|to=到

increase_brightness_default

默认调高亮度

亮度调高点

decrease_brightness

调低亮度

亮度调低10

number

亮度值

亮度调低10|number=10

to

到、至、为、...

亮度调低到10|to=到

decrease_brightness_default

默认调低亮度

亮度调低点

set_brightness

设置亮度

亮度调到50

number

亮度值

亮度调到50|number=50

to

到、至、为、...

亮度调到50|to=到

音量设置

指令名称

指令说明

指令示例

参数名称

参数说明

参数示例

increase_volume

调高音量

音量调高10

number

音量值

音量调高10|number=10

to

到、至、为、...

音量调高到10|to=到

for

音量类别,包括:系统、媒体、通话

媒体音量调高到30|for=媒体

increase_volume_default

默认调高音量

音量调高点

decrease_volume

调低音量

音量调低10

number

音量值

音量调低10|number=10

to

到、至、为、...

音量调低到10|to=到

for

音量类别,包括:系统、媒体、通话

系统音量调低到30|for=系统

decrease_volume_default

默认调低音量

音量调低点

set_volume

调节音量

音量调到50

number

音量值

音量调到50|number=50

to

到、至、为、...

音量调到50|to=到

for

音量类别,包括:系统、媒体、通话

电话音量调到30|for=通话

mute

静音

静音

unmute

取消静音

取消静音

设备控制

指令名称

指令说明

指令示例

参数名称

参数说明

参数示例

shutdown

关机

关机、关闭电脑

quit

退出

退出、回聊、结束会话、退出语音助手

back

返回

回到上一级

confirm

确认

好的

record

是否录音

确认并录音|record=True

cancel

取消

不用了

select

选择

选择第二个

index

序列号

选择第二个|index=2

check_battery

电量查询

现在还剩多少电

屏幕控制

指令名称

指令说明

指令示例

参数名称

参数说明

参数示例

screen_off

熄屏/待机模式

熄屏、进入待机状态

screen_shot

截屏

帮我截个屏

screen_recording

录屏

帮我录下屏

stop_screen_recording

结束录屏

结束录屏

多媒体控制

指令名称

指令说明

指令示例

参数名称

参数说明

参数示例

play

播放(除音乐外)

播放播客、放电影

start_over

从头播放

重新从头播吧

stop

暂停

暂停播放

resume_play

继续播放

继续播放

next

下一个

下一首歌

unit

单位

下一首歌|unit=首

previous

上一个

上一首歌

unit

单位

上一首歌|unit=首

change

换一个

换一首歌

unit

单位

换一首歌|unit=首

应用开关

指令名称

指令说明

指令示例

参数名称

参数说明

参数示例

open_notification

打开消息通知

打开消息通知

exit_notification

关闭消息通知

关闭消息通知

clean_notification

清除消息通知

清除所有通知

open_photos

打开相册

打开相册

quit_photos

退出相册

退出相册

open_player

打开多媒体(蓝牙音频播控)

打开多媒体

quit_player

退出多媒体

退出多媒体

open_app_center

打开应用中心

打开应用中心

quit_app_center

退出应用中心

退出应用中心

open_Prompter

打开提词器

打开提词器

quit_Prompter

退出提词器

退出提词器

open_app

打开第三方应用

打开微信

app_name

应用名称,例如:微博、网易新闻、小红书、飞书、钉钉;

打开微信|app_name=微信

quit_app

退出第三方应用

退出微信

app_name

应用名称

退出微信|app_name=微信

open_setting

打开设置

打开设置

type

设置类型,例如:系统、通用、显示、音量、应用、设备连接、隐私政策;

打开通用设置|type=通用

quit_setting

退出设置

退出设置

type

设置类型

退出通用设置|type=通用

open_system_update

打开系统更新

打开系统更新页面

quit_system_update

退出系统更新

关闭系统更新页面

open_dnd_mode

打开勿扰模式

打开勿扰模式

quit_dnd_mode

关闭勿扰模式

关闭勿扰模式

open_auto_brightness

打开智能感光

打开感光模式

quit_auto_brightness

关闭智能感光

关闭智能感光

open_vr_calibration

打开虚实标定

打开虚实标定页面

quit_vr_calibration

退出虚实标定

关闭虚实标定页面

音乐

指令名称

指令说明

指令示例

参数名称

参数说明

参数示例

play_music

播放音乐

放首歌

song

歌曲名称

我要听十年|song=十年

artist

歌手

我要听周杰伦的歌|artist=周杰伦

album

专辑

我要听八度空间专辑|album=八度空间

style

风格/流派

我要听摇滚乐|style=摇滚

language

方言/语种

我要听粤语歌|language=粤语

general_tag

场景/标签

我要听轻松的歌|general_tag=轻松

era

年代

来电八十年代的歌|era=八十年代

sort

排序,包括:最新、最热

来首最新的歌|sort=最新

music_type

音乐类型,包括:歌曲、专辑、歌单

我要听刘德华的专辑|music_type=专辑

media_name

播放平台

播放虾米音乐的歌曲|media_name=虾米音乐

play_daily_playlist

播放每日推荐歌单

播放每日推荐歌单

play_my_collection

播放我喜欢的歌单

播放我喜欢的歌单

play_randomly

猜你喜欢

随便放点歌

like

喜欢/收藏

喜欢这首歌

unlike

不喜欢/取消收藏

不喜欢这个歌

拍照录像

指令名称

指令说明

指令示例

参数名称

参数说明

参数示例

take_photo

拍照

拍张照片

quick_burst

连拍

连拍三张

number

拍照数量

连拍三张|number=3

open_camera

打开相机

打开相机

quit_camera

退出相机

退出相机

open_photo_mode

打开拍照模式

打开拍照模式

quit_photo_mode

退出拍照模式

关闭拍照模式

open_camera_preview

打开相机预览模式

打开相机预览模式

quit_camera_preview

关闭相机预览模式

关闭相机预览模式

video_recording

录像

录制视频吧

open_video_mode

打开摄影模式

打开摄影模式

quit_video_mode

退出摄影模式

关闭摄影模式

打电话

指令名称

指令说明

指令示例

参数名称

参数说明

参数示例

call

打电话

拨打电话

contact_name

联系人名称

打给小明|contact_name=小明

phone_number

电话号码

拨打10086|phone_number=10086

phone_type

电话类型

拨打小明的工作电话|phone_type=工作

phone_entity

电话实体

拨打火警|phone_entity=火警

record

是否需要录音

拨打并录音|record=True

confirm

确认

好的

record

是否录音

确认并录音|record=True

cancel

取消

不用了

open_call

打开电话

打开电话应用

quit_call

退出电话

退出电话应用

answer_call

接听电话

接电话

contact_name

联系人名称

接一下小明的电话|contact_name=小明

record

是否需要录音

接听并录音|record=True

reject_phone

拒听电话

不接了

update_contacts

更新通讯录

更新通讯录

录音

指令名称

指令说明

指令示例

参数名称

参数说明

参数示例

audio_recording

录音

开始录音

audio_type

音频类型,包括:内部、外部、通话

录制蓝牙音乐|audio_type=内部

开始现场录音|audio_type=外部

开启电话录音|audio_type=通话

quit_audio_recording

退出录音

关闭录音应用

stop_audio_recording

停止录音

暂停录音

语音交互应用指令列表如下:

指令

指令名称

指令说明

指令示例

参数名称

参数类型

参数说明

参数是否必选

打电话

MAKE_A_PHONE_CALL_phone_call

打电话

拨打10086

拨打火警

拨打小明的工作电话

phone_num

String

电话号码

contact_name

String

联系人

CANCEL_phone_call

取消呼叫

不用了

CREATE_contacts

新建联系人

创建一个联系人,小王,12345678901

phone_num

String

电话号码

contact_name

String

联系人名称

ANSWER_phone_call

接电话

接电话

REJECT_phone_call

拒听电话

不接了

UPDATE_contacts

更新通讯录

把小王的电话更新为12345678901

contact_name

String

待更新的联系人

update_name

String

若更新联系人名字,更新后的名字

update_phone

String

若更新联系人电话,更新后的电话

定闹钟

SET_clock

设定闹钟

定个明天早上六点的闹钟

每周五下午三点半提醒我开会

time

String

设置时间

date

String

设置日期,标准格式:YYYY-MM-DD

content

String

闹钟内容、标签,例如设置目的

repeat

String

重复设置的日期,例如:每天/工作日/周一/周二/周三/周四/周五/周六/周日,默认不重复

亮度设置

CHANGE_brightness

将亮度调节到某个具体值

亮度调到50

value

Integer

亮度值

level

Integer

非连续模式下,亮度设置的等级,例如:一级/五级

mode

String

亮度模式,例如:自动/正常/夜间/阅读/游戏/观影

INCREASE_brightness

调高屏幕或照明设备的亮度,支持通过具体数值或预设档位调节。

亮度调高10

number

Integer

亮度值

to

Integer

到、至、为、...

level

Integer

非连续模式下,亮度增加的等级

DECREASE_brightness

降低屏幕或照明设备的亮度,支持通过具体数值或预设档位调节。

亮度调低10

number

Integer

亮度值

to

Integer

到、至、为、...

level

Integer

非连续模式下,亮度降低的等级

INCREASE_DEFAULT_brightness

默认调高亮度(未明确指定调高数值)

亮度调高点

DECREASE_DEFAULT_brightness

默认调低亮度(未明确指定调低数值)

亮度调低点

色温设置

CHANGE_color_temperature

将色温调节到某个具体值

色温调到20

amount

Integer

色温增减的具体数值

INCREASE_color_temperature

增加屏幕或显示器的色温(变冷),支持设置调节幅度,或无具体数值

色温调高20

amount

Integer

色温增加的具体数值

to

Integer

到、至、为、...

DECREASE_color_temperature

减小屏幕或显示器的色温(变暖),支持设置调节幅度,或无具体数值

色温调低20

amount

Integer

色温减少的具体数值

to

Integer

到、至、为、...

音量设置

CHANGE_volume

将音量调节到某个具体值

音量调到50

amount

Integer

音量增加的具体数值

PLUS_volume

将音量调高,支持通过具体数值调节。

音量调高10

amount

Integer

音量增加的具体数值

to

Integer

到、至、为、...

MINUS_volume

将音量调低,支持通过具体数值调节。

音量调低10

amount

Integer

音量减小的具体数值

to

Integer

到、至、为、...

INCREASE_DEFAULT_volume

默认调高音量(未明确指定调高数值)

音量调高点

DECREASE_DEFAULT_volume

默认调低音量(未明确指定调低数值)

音量调低点

MUTE_volume

静音

静音

UNMUTE_volume

取消静音

取消静音

蓝牙

DEVICE_LIST_bluetooth

列出所有已配对的蓝牙设备

打开蓝牙列表

SCAN_bluetooth

搜索附近的可配对蓝牙设备

搜索蓝牙

TURN_OFF_bluetooth

关闭蓝牙功能

关闭蓝牙

TURN_ON_bluetooth

开启蓝牙功能

打开蓝牙

应用开关

OPEN_device

打开、启动设备

打开耳机

device

String

设备名称,默认为当前设备

LAUNCH_app

启动应用

打开播客

打开播客,开始播放

name

String

应用名称,默认为当前应用,例如:相册、应用中心、应用宝、微博、网易新闻、小红书、飞书、钉钉、bilibili、哔哩哔哩、B站、抖音、喜马拉雅、优酷、腾讯视频、爱奇艺、芒果tv、微信

intent

String

打开应用之后的意图/下一步动作

CLOSE_device_or_app

关闭、退出设备或应用

耳机关机

退出播客

device

String

设备名称,默认为当前设备

app

String

应用名称,默认为当前应用,例如:相册、应用中心、应用宝、微博、网易新闻、小红书、飞书、钉钉、bilibili、哔哩哔哩、B站、抖音、喜马拉雅、优酷、腾讯视频、爱奇艺、芒果tv、微信

RESTART_device

重启设备

重启眼镜

device

String

设备名称,默认为当前设备

SHUTDOWN_assistant

关闭智能助手服务

退出语音助手

OPEN_notification

打开消息通知

打开消息通知

EXIT_notification

关闭消息通知

关闭消息通知

CLEAN_notification

清除消息通知

清除所有通知

OPEN_setting

打开设置

打开设置

type

String

设置类型,包括:系统、通用、显示、音量、应用、设备连接、隐私政策;

EXIT_setting

退出设置

退出设置

设备控制

BACK

返回

回到上一级

CONFIRM

确认

好的

CANCEL

取消

不用了

SELECT

选择

选择第二个

index

Integer

序列号

CHECK_battery

电量查询

现在还剩多少电

音乐播放

PLAY_music

播放音乐

放一首青花瓷

放一首纯音乐

打开虾米音乐播放青花瓷

song

String

歌曲名称

artist

String

歌手

album

String

专辑

type

String

音乐类型,如:电子、流行、摇滚、抒情、乡村、爵士、纯音乐等

style

String

风格/流派

language

String

方言/语种

general_tag

String

场景/标签

era

String

年代

sort

String

排序,包括:最新、最热

mode

String

播放模式,例如:单曲循环、列表循环、随机播放、心动模式

player

String

播放音乐的应用程序或设备

PLAY_DAILYLIST_music

播放每日推荐歌单

播放每日推荐歌单

PLAY_COLLECTION_music

播放我喜欢的歌单

播放我喜欢的歌单

PLAY_RANDOM_music

随机播放歌曲(猜你喜欢),适合用户未指定任何歌曲信息时调用

随便放点歌

LIKE_music

喜欢/收藏

喜欢这首歌

视频播放

PLAY_video

播放视频

播放一个刘德华的电影

播放一个张艺谋导演的电影

播放一个喜剧片

4K播放电影

播放一个和时尚有关的电影

播放一个法语电影

播放一个美国电影

播放一个九十年代的电影

打开优酷播放流浪地球

title

String

视频名称

actor

String

主演/主要人物

director

String

导演/作者

genre

String

视频类型或电影类型

theme

String

主题

language

String

语言

region

String

地区

year

String

年份

resolution

String

分辨率,可选:标清/高清/超清/4K

player

String

播放视频的应用程序或设备

多媒体控制

PREVIOUS_resource

播放上一个多媒体资源(如歌曲、音视频等)

播放上一首歌

优酷播放上一集

resource_type

String

需要切换到下一个的资源类型,例如:音乐、视频、新闻、故事、图片等

player

String

播放多媒体内容的应用程序或设备

NEXT_resource

播放下一个多媒体资源(如歌曲、音视频等)

播放下一首歌

优酷播放下一集

resource_type

String

需要切换到下一个的资源类型,例如:音乐、视频、新闻、故事、图片等

player

String

播放多媒体内容的应用程序或设备

CHANGE_resource

换一个多媒体资源播放(如歌曲、音视频等)

换一首歌

优酷换一个电影播放

resource_type

String

需要切换到下一个的资源类型,例如:音乐、视频、新闻、故事、图片等

player

String

播放多媒体内容的应用程序或设备

REPLAY_resource

重新播放当前的多媒体资源(如歌曲、音视频等)

重新播放七里香

电影从头开始播放

优酷视频从头播放

name

String

需要重新播放的资源名称

resource_type

String

需要重新播放的资源类型,例如:音乐、视频、新闻、故事、图片等

player

String

播放多媒体内容的应用程序或设备

RESUME_operation_on_device

恢复设备上被暂停或中断的操作,例如音乐/视频播放、录音等。

耳机继续播放

音乐继续播放

String

需要恢复操作的设备名称,如未指定则默认当前设备

operation_type

String

需要恢复的操作类型,例如音乐播放、录像、录音等

PAUSE_operation_on_device

暂停设备上的当前进行的操作,例如音乐/视频播放、录音等。

耳机暂停一下

音乐暂停

device_name

String

需要暂停操作的设备名称,如未指定则默认当前设备

operation_type

String

需要暂停的具体操作类型,例如音乐播放、录像、录音等

拍照录像

PHOTO_camera

拍照

拍张照片

相机设置(支持模式切换、镜头控制、基础参数调整)

打开夜景拍照模式

切到前置摄像头

关闭闪光灯

图像分辨率调到4k

打开自动对焦

曝光补偿值调到1

打开白平衡自动

把网格线关掉

打开高动态范围成像

mode

String

摄像模式,可选参数: 拍照/录像/慢动作/延时摄影/全景/夜景

lens_switch

String

前后置镜头切换,可选参数: 前置/后置/外部镜头(如支持)

flash_mode

String

闪光灯模式,例如: 自动/开启/关闭/防红眼

resolution

String

图像分辨率,例如: 1080p/4K/8K(根据设备支持)

focus_mode

String

对焦模式,例如: 自动/手动/连续自动对焦

exposure_compensation

Integer

曝光补偿值(EV)

white_balance

String

白平衡设置,例如: 自动/日光/阴天/白炽灯/荧光灯

grid_lines

String

网格线是否显示,例如: 开启/关闭

hdr

String

高动态范围成像,例如: 开启/关闭

QUICK_BURST_camera

连拍

连拍5

number

Integer

连拍数量设置,默认为5

VIDEO_recording

录像

录制视频吧

STOP_VIDEO_recording

停止录像

停止录像

SWITCH_MODE_camera

切换相机模式

换成录影模式

mode

String

相机模式设置,例如: 拍照模式/摄影模式/预览模式

录音

AUDIO_recording

录音

开始录制通话语音

audio_app

String

需要录制音频的应用,例如:电话, 录音机

STOP_AUDIO_recording

停止录音

暂停录音

朗读文字

READ_screen

读取当前屏幕上显示的内容(主要为文本),转化为音频播放

打开地图

ROUTE_map

打开并显示从起点位置到终点位置的地图路线(也可以仅包含终点),仅显示路线,不进行导航

endLoc_city

String

终点城市

startLoc_province

String

起点省份

endLoc_poi

String

终点地名

startLoc_area

String

起点行政区(小于市级地区、大于具体地点的区域划分)

startLoc_poi

String

起点地名

startLoc_city

String

起点城市

endLoc_province

String

终点省份

endLoc_area

String

终点行政区(小于市级地区、大于具体地点的区域划分)

发短信

SENDCONTACTS_message

给指定联系人发送其他联系人信息

category

String

信息类型,如手机

receiver

String

接收人

name

String

需要发送的联系人

SEND_message

给指定联系人发送信息

content

String

信息内容

contact

String

接收信息的联系人

phone

String

接收人的手机号码

VIEW_message

查看消息

message_type

String

消息类型。如:短信、邮件等

屏幕控制

OFF_screen

熄屏/待机模式

熄屏

进入待机状态

SHOT_screen

对当前屏幕进行截图

截个屏

START_recording

开始屏幕录制

帮我录个屏

STOP_recording

停止屏幕录制并保存文件

结束录屏

自定义指令

除上述系统指令外,如果您需要实现更多控制技能,可以使用自定义指令。

image

自定义指令的结构与系统指令一致,每个指令类型可以创建多个指令。

每个指令包含指令名称、指令说明、指令示例;如果需要参数,还可以添加参数名称、参数说明和参数示例。

  • 指令名称:建议使用英文,用于下发对应指令。

  • 指令说明:解释该指令的作用。

  • 指令示例:可以提供多条语料,提升模型对指令的下发准确率。

  • 参数:支持设置多个参数,例如具体的调节数值;提供示例有助于模型理解参数的具体意义,下发更准确。

例如,设置一组指令用于调整台灯的亮度:

  1. 创建一个指令类型,命名为“台灯亮度控制”。

  2. 创建一个指令,命名为“brightness_increase”,作用是下发调高亮度的指令。可以填写一些命中该指令的语料,用于模型训练,例如“台灯调亮点”、台灯亮度调高20”。

  3. 如果需要下发具体参数,可以添加参数,填写名称、说明和示例。例如设置参数“to”,用于传递具体将台灯亮度调高到某个数值。提供参数示例,例如“亮度调高到20,to=20”。

每个指令类型可以创建多个指令,每个指令可以设置多个参数,也可以不设置任何参数。

image

创建指令后,在自定义指令列表中勾选并确定,即可将该指令添加到当前应用中自动生效。

image

如需测试指令是否生效,点击下方“立即运行”,即可开始测试。

插件

支持接入您在阿里云百炼创建的插件,以增强对话能力。

  • 点击添加按钮,选择您需要的插件即可。image

  • 支持按需勾选多模态交互套件预置插件,您也可以在插件广场中选择,或接入自定义插件。95E1CF7F-E927-4519-ADBE-D6A0835F886C

Agent

接入预置Agent

多模态交互应用提供一系列适用于不同场景的Agent,API参考调用官方Agent

image.png

语音交互应用目前仅支持语音翻译Agent,敬请期待。

  • 实时视频通话:实时视觉理解,适用于带有摄像头的设备。点开右侧设置,可配置功能名称、启动指令、退出指令以及提示词。

    • 截屏2025-06-03 18

  • 拍照问答:当识别到用户有画面理解的需求时,自动调用摄像头拍照并回复。适用于带有摄像头的设备。点开右侧设置,可配置提示词及触发指令。

    • 截屏2025-06-03 18

  • 新闻电台:每日更新热门新闻资讯,两位AI主播互动解说,用户可以随时打断并加入对话。点开右侧设置,可配置功能名称、启动指令、退出指令、续播指令以及角色音色。

    • 截屏2025-06-03 18

  • 语音翻译:多语种实时语音识别,并输出语音翻译、文本翻译结果。点开右侧设置,可配置功能名称、启动指令、退出指令,选择输出结果。

    • 截屏2025-06-20 15

  • 极速视频通话:基于Qwen-Omni模型的视频对话,支持响应速度更快的闲聊。点开右侧设置,可配置功能名称、启动指令以及退出指令。

    • 4ED65AB6-0EC1-48c7-B18A-66AAD087C09B

  • 拍照翻译:多模态应用专属,支持多语言、自动拍照的翻译能力,能够精准翻译眼前的文字。点开右侧设置,可配置触发指令、提示词以及对话变量,支持一键导入主对话链路中的提示词和变量配置。

    • image

  • 儿童故事:陪伴式讲故事功能,拥有自有故事库,支持讲故事过程中的对话交互、故事创作和续写改写。点开右侧设置,可配置功能名称、启动指令、退出指令、语音合成模型以及对应音色。

    • image

接入百炼平台Agent

  • 可以接入您在阿里云百炼平台创建的Agent,以增强对话能力。

    • E8EF3991-1F3E-4f27-96DB-8BCD68FA98D1

接入三方Agent

  • 支持客户开发的三方Agent接入,需基于Google A2A协议进行集成,详情请参考三方Agent接入

    • image (1)

    • image (2)