完成应用创建后,您可以在应用配置页面,自由组合需要的对话能力。应用配置分为语音交互、理解与生成、技能、Agent四个主要部分。
语音交互
配置语音交互相关的功能,例如语音模型、打断方式等。
语音AI
可选择是否调用语音识别、语音合成能力,以及调用的具体模型。
语音识别:支持使用阿里云百炼的语音识别模型,包括Gummy实时语音识别、Paraformer实时语音识别。
语音合成:支持使用阿里云百炼的语音合成CosyVoice-v2大模型和通义千问-TTS模型。除系统音色外,还支持声音复刻能力(CosyVoice-v2大模型)。
三方语音模型:支持接入三方语音模型,具体方法参见调用三方语音模型。
使用Gummy实时语音识别、Paraformer实时语音识别模型,均可使用定制热词功能。
热词数量:最多支持创建10个热词库,每个热词库最多500个词。
配置方式:您可以手动添加词汇,也可以上传文件进行批量添加,文件示例详见页面说明。
配置应用时,可以在界面中下拉选择一个热词组并添加,发布后相应热词即可生效。
对话打断
支持三种打断方式:任意语音打断(全双工)、点击打断(半双工)、长按对话(半双工,仅移动端支持)。
您可以在控制台选择并体验对话效果。
端侧算法
提供以下端侧算法能力:
语音唤醒:支持默认唤醒词“小云”,移动端 Android 和 iOS 可直接使用。如需其它芯片平台或定制唤醒词,请联系商务。
端侧VAD:语音活性检测,用于检测是否存在语音信号。移动端可直接使用,其他芯片平台可使用云端 VAD 方案,或联系商务进行定制。
AEC:回声消除,减少自身播报对语音交互的干扰。移动端 Android 和 iOS 可直接使用已集成的语音打断,其它芯片平台如需定制请联系商务。
定向拾音:增强特定方向拾音,抑制甚至屏蔽其他方向声音。依赖麦克风阵列硬件布局,如需定制请联系商务。
理解与生成
配置对话理解与生成相关功能,例如文本生成模型、Prompt、知识库等。
文本模型
可选择对话中的文本生成大模型。
推荐模型:推荐使用多模态交互专有模型,在口语场景具备自然、简洁、快速的对话能力。
百炼模型:您也可选择阿里云百炼提供的文本生成模型。在多模态交互应用中,还可以选择“我的模型”。
可以在右侧体验区测试对话效果,选择最合适产品应用场景的模型。
欢迎语
支持设置对话交互的欢迎语,进入对话后模型主动发起话题。如未设置,则需要用户主动提问,模型不会主动发起话题。
您可以配置一句欢迎语用于效果测试。
语音交互应用尚不支持通过控制台设置欢迎语。
提示词
支持自定义Prompt,用于设定对话风格和人设。
如未填写,则使用通用Prompt,适用于常见的口语对话场景。
您可以在右侧体验区测试提示词效果。
支持使用阿里云百炼的Prompt模板概述和Prompt自动优化功能。
支持插入自定义变量,可以设置变量并传参。传入变量值将替换提示词中对应的变量位置。
对话变量
支持在对话输入中添加变量,为模型提供用户语音之外的更多信息,如动作行为、人脸识别结果、时间、地点、天气、周围环境等。
每轮对话中,没有传入参数的变量,将不会输入给模型进行处理。
例如,设置变量名currentWeather(当前天气)、 currentPerson(当前与AI对话的人物的名字),并传入currentWeather=36、 currentPerson=Lily,则本轮对话除传入用户问题,还会传入对应参数。
携带上下文轮数
该参数用于控制模型参考历史对话的轮数,设为1时表示模型在回复时不会参考历史对话信息。
可设置范围为:1~10。
知识库
支持配置阿里云百炼创建的知识库,并进行检索设置。
开启知识库后,prompt会自动添加变量。
具体操作可查看创建和使用知识库说明文档。
联网搜索
由于训练数据的时效性,大模型无法准确回答如股票价格、今日资讯等时效性问题。
您可以通过开启联网搜索开关,启用联网检索功能,使大模型可以基于实时检索数据进行回复。
在语音交互应用中,您还可以选择开启效率模式或效果模式。
效率模式返回结果的速度更快,效果模式返回结果的精度更高。
存储地址
如果您需要保存全量对话数据,可使用阿里云事件总线 Event Bridge 服务。
详细使用方法可查看:对话日志接入。
技能
指令
指令是指由多模态交互下发,设备终端执行的任务,如打开台灯、调高音量等。
多模态交互开发套件提供一系列系统指令,您只需勾选需要的指令,对应指令将自动在对话中生效并下发。详细的指令列表请查看下文。
如果需要修改下发指令,可以在设置页中调整。
如果您需要自定义指令,例如“打开小云电台”,可以使用自定义指令能力。
系统指令
多模态交互应用指令列表如下:
亮度设置
指令名称 | 指令说明 | 指令示例 | 参数名称 | 参数说明 | 参数示例 |
increase_brightness | 调高亮度 | 亮度调高10 | number | 亮度值 | 亮度调高10|number=10 |
to | 到、至、为、... | 亮度调高到10|to=到 | |||
increase_brightness_default | 默认调高亮度 | 亮度调高点 | |||
decrease_brightness | 调低亮度 | 亮度调低10 | number | 亮度值 | 亮度调低10|number=10 |
to | 到、至、为、... | 亮度调低到10|to=到 | |||
decrease_brightness_default | 默认调低亮度 | 亮度调低点 | |||
set_brightness | 设置亮度 | 亮度调到50 | number | 亮度值 | 亮度调到50|number=50 |
to | 到、至、为、... | 亮度调到50|to=到 |
音量设置
指令名称 | 指令说明 | 指令示例 | 参数名称 | 参数说明 | 参数示例 |
increase_volume | 调高音量 | 音量调高10 | number | 音量值 | 音量调高10|number=10 |
to | 到、至、为、... | 音量调高到10|to=到 | |||
for | 音量类别,包括:系统、媒体、通话 | 媒体音量调高到30|for=媒体 | |||
increase_volume_default | 默认调高音量 | 音量调高点 | |||
decrease_volume | 调低音量 | 音量调低10 | number | 音量值 | 音量调低10|number=10 |
to | 到、至、为、... | 音量调低到10|to=到 | |||
for | 音量类别,包括:系统、媒体、通话 | 系统音量调低到30|for=系统 | |||
decrease_volume_default | 默认调低音量 | 音量调低点 | |||
set_volume | 调节音量 | 音量调到50 | number | 音量值 | 音量调到50|number=50 |
to | 到、至、为、... | 音量调到50|to=到 | |||
for | 音量类别,包括:系统、媒体、通话 | 电话音量调到30|for=通话 | |||
mute | 静音 | 静音 | |||
unmute | 取消静音 | 取消静音 |
设备控制
指令名称 | 指令说明 | 指令示例 | 参数名称 | 参数说明 | 参数示例 |
shutdown | 关机 | 关机、关闭电脑 | |||
quit | 退出 | 退出、回聊、结束会话、退出语音助手 | |||
back | 返回 | 回到上一级 | |||
confirm | 确认 | 好的 | record | 是否录音 | 确认并录音|record=True |
cancel | 取消 | 不用了 | |||
select | 选择 | 选择第二个 | index | 序列号 | 选择第二个|index=2 |
check_battery | 电量查询 | 现在还剩多少电 |
屏幕控制
指令名称 | 指令说明 | 指令示例 | 参数名称 | 参数说明 | 参数示例 |
screen_off | 熄屏/待机模式 | 熄屏、进入待机状态 | |||
screen_shot | 截屏 | 帮我截个屏 | |||
screen_recording | 录屏 | 帮我录下屏 | |||
stop_screen_recording | 结束录屏 | 结束录屏 |
多媒体控制
指令名称 | 指令说明 | 指令示例 | 参数名称 | 参数说明 | 参数示例 |
play | 播放(除音乐外) | 播放播客、放电影 | |||
start_over | 从头播放 | 重新从头播吧 | |||
stop | 暂停 | 暂停播放 | |||
resume_play | 继续播放 | 继续播放 | |||
next | 下一个 | 下一首歌 | unit | 单位 | 下一首歌|unit=首 |
previous | 上一个 | 上一首歌 | unit | 单位 | 上一首歌|unit=首 |
change | 换一个 | 换一首歌 | unit | 单位 | 换一首歌|unit=首 |
应用开关
指令名称 | 指令说明 | 指令示例 | 参数名称 | 参数说明 | 参数示例 |
open_notification | 打开消息通知 | 打开消息通知 | |||
exit_notification | 关闭消息通知 | 关闭消息通知 | |||
clean_notification | 清除消息通知 | 清除所有通知 | |||
open_photos | 打开相册 | 打开相册 | |||
quit_photos | 退出相册 | 退出相册 | |||
open_player | 打开多媒体(蓝牙音频播控) | 打开多媒体 | |||
quit_player | 退出多媒体 | 退出多媒体 | |||
open_app_center | 打开应用中心 | 打开应用中心 | |||
quit_app_center | 退出应用中心 | 退出应用中心 | |||
open_Prompter | 打开提词器 | 打开提词器 | |||
quit_Prompter | 退出提词器 | 退出提词器 | |||
open_app | 打开第三方应用 | 打开微信 | app_name | 应用名称,例如:微博、网易新闻、小红书、飞书、钉钉; | 打开微信|app_name=微信 |
quit_app | 退出第三方应用 | 退出微信 | app_name | 应用名称 | 退出微信|app_name=微信 |
open_setting | 打开设置 | 打开设置 | type | 设置类型,例如:系统、通用、显示、音量、应用、设备连接、隐私政策; | 打开通用设置|type=通用 |
quit_setting | 退出设置 | 退出设置 | type | 设置类型 | 退出通用设置|type=通用 |
open_system_update | 打开系统更新 | 打开系统更新页面 | |||
quit_system_update | 退出系统更新 | 关闭系统更新页面 | |||
open_dnd_mode | 打开勿扰模式 | 打开勿扰模式 | |||
quit_dnd_mode | 关闭勿扰模式 | 关闭勿扰模式 | |||
open_auto_brightness | 打开智能感光 | 打开感光模式 | |||
quit_auto_brightness | 关闭智能感光 | 关闭智能感光 | |||
open_vr_calibration | 打开虚实标定 | 打开虚实标定页面 | |||
quit_vr_calibration | 退出虚实标定 | 关闭虚实标定页面 |
音乐
指令名称 | 指令说明 | 指令示例 | 参数名称 | 参数说明 | 参数示例 |
play_music | 播放音乐 | 放首歌 | song | 歌曲名称 | 我要听十年|song=十年 |
artist | 歌手 | 我要听周杰伦的歌|artist=周杰伦 | |||
album | 专辑 | 我要听八度空间专辑|album=八度空间 | |||
style | 风格/流派 | 我要听摇滚乐|style=摇滚 | |||
language | 方言/语种 | 我要听粤语歌|language=粤语 | |||
general_tag | 场景/标签 | 我要听轻松的歌|general_tag=轻松 | |||
era | 年代 | 来电八十年代的歌|era=八十年代 | |||
sort | 排序,包括:最新、最热 | 来首最新的歌|sort=最新 | |||
music_type | 音乐类型,包括:歌曲、专辑、歌单 | 我要听刘德华的专辑|music_type=专辑 | |||
media_name | 播放平台 | 播放虾米音乐的歌曲|media_name=虾米音乐 | |||
play_daily_playlist | 播放每日推荐歌单 | 播放每日推荐歌单 | |||
play_my_collection | 播放我喜欢的歌单 | 播放我喜欢的歌单 | |||
play_randomly | 猜你喜欢 | 随便放点歌 | |||
like | 喜欢/收藏 | 喜欢这首歌 | |||
unlike | 不喜欢/取消收藏 | 不喜欢这个歌 |
拍照录像
指令名称 | 指令说明 | 指令示例 | 参数名称 | 参数说明 | 参数示例 |
take_photo | 拍照 | 拍张照片 | |||
quick_burst | 连拍 | 连拍三张 | number | 拍照数量 | 连拍三张|number=3 |
open_camera | 打开相机 | 打开相机 | |||
quit_camera | 退出相机 | 退出相机 | |||
open_photo_mode | 打开拍照模式 | 打开拍照模式 | |||
quit_photo_mode | 退出拍照模式 | 关闭拍照模式 | |||
open_camera_preview | 打开相机预览模式 | 打开相机预览模式 | |||
quit_camera_preview | 关闭相机预览模式 | 关闭相机预览模式 | |||
video_recording | 录像 | 录制视频吧 | |||
open_video_mode | 打开摄影模式 | 打开摄影模式 | |||
quit_video_mode | 退出摄影模式 | 关闭摄影模式 |
打电话
指令名称 | 指令说明 | 指令示例 | 参数名称 | 参数说明 | 参数示例 |
call | 打电话 | 拨打电话 | contact_name | 联系人名称 | 打给小明|contact_name=小明 |
phone_number | 电话号码 | 拨打10086|phone_number=10086 | |||
phone_type | 电话类型 | 拨打小明的工作电话|phone_type=工作 | |||
phone_entity | 电话实体 | 拨打火警|phone_entity=火警 | |||
record | 是否需要录音 | 拨打并录音|record=True | |||
confirm | 确认 | 好的 | record | 是否录音 | 确认并录音|record=True |
cancel | 取消 | 不用了 | |||
open_call | 打开电话 | 打开电话应用 | |||
quit_call | 退出电话 | 退出电话应用 | |||
answer_call | 接听电话 | 接电话 | contact_name | 联系人名称 | 接一下小明的电话|contact_name=小明 |
record | 是否需要录音 | 接听并录音|record=True | |||
reject_phone | 拒听电话 | 不接了 | |||
update_contacts | 更新通讯录 | 更新通讯录 |
录音
指令名称 | 指令说明 | 指令示例 | 参数名称 | 参数说明 | 参数示例 |
audio_recording | 录音 | 开始录音 | audio_type | 音频类型,包括:内部、外部、通话 | 录制蓝牙音乐|audio_type=内部 开始现场录音|audio_type=外部 开启电话录音|audio_type=通话 |
quit_audio_recording | 退出录音 | 关闭录音应用 | |||
stop_audio_recording | 停止录音 | 暂停录音 |
语音交互应用指令列表如下:
指令 | 指令名称 | 指令说明 | 指令示例 | 参数名称 | 参数类型 | 参数说明 | 参数是否必选 |
打电话 | MAKE_A_PHONE_CALL_phone_call | 打电话 | 拨打10086 拨打火警 拨打小明的工作电话 | phone_num | String | 电话号码 | 否 |
contact_name | String | 联系人 | 否 | ||||
CANCEL_phone_call | 取消呼叫 | 不用了 | |||||
CREATE_contacts | 新建联系人 | 创建一个联系人,小王,12345678901 | phone_num | String | 电话号码 | 是 | |
contact_name | String | 联系人名称 | 是 | ||||
ANSWER_phone_call | 接电话 | 接电话 | |||||
REJECT_phone_call | 拒听电话 | 不接了 | |||||
UPDATE_contacts | 更新通讯录 | 把小王的电话更新为12345678901 | contact_name | String | 待更新的联系人 | 是 | |
update_name | String | 若更新联系人名字,更新后的名字 | 否 | ||||
update_phone | String | 若更新联系人电话,更新后的电话 | 否 | ||||
定闹钟 | SET_clock | 设定闹钟 | 定个明天早上六点的闹钟 每周五下午三点半提醒我开会 | time | String | 设置时间 | 是 |
date | String | 设置日期,标准格式:YYYY-MM-DD | 否 | ||||
content | String | 闹钟内容、标签,例如设置目的 | 否 | ||||
repeat | String | 重复设置的日期,例如:每天/工作日/周一/周二/周三/周四/周五/周六/周日,默认不重复 | 否 | ||||
亮度设置 | CHANGE_brightness | 将亮度调节到某个具体值 | 亮度调到50 | value | Integer | 亮度值 | 否 |
level | Integer | 非连续模式下,亮度设置的等级,例如:一级/五级 | 否 | ||||
mode | String | 亮度模式,例如:自动/正常/夜间/阅读/游戏/观影 | 否 | ||||
INCREASE_brightness | 调高屏幕或照明设备的亮度,支持通过具体数值或预设档位调节。 | 亮度调高10 | number | Integer | 亮度值 | 否 | |
to | Integer | 到、至、为、... | 否 | ||||
level | Integer | 非连续模式下,亮度增加的等级 | 否 | ||||
DECREASE_brightness | 降低屏幕或照明设备的亮度,支持通过具体数值或预设档位调节。 | 亮度调低10 | number | Integer | 亮度值 | 否 | |
to | Integer | 到、至、为、... | 否 | ||||
level | Integer | 非连续模式下,亮度降低的等级 | 否 | ||||
INCREASE_DEFAULT_brightness | 默认调高亮度(未明确指定调高数值) | 亮度调高点 | |||||
DECREASE_DEFAULT_brightness | 默认调低亮度(未明确指定调低数值) | 亮度调低点 | |||||
色温设置 | CHANGE_color_temperature | 将色温调节到某个具体值 | 色温调到20 | amount | Integer | 色温增减的具体数值 | 是 |
INCREASE_color_temperature | 增加屏幕或显示器的色温(变冷),支持设置调节幅度,或无具体数值 | 色温调高20 | amount | Integer | 色温增加的具体数值 | 否 | |
to | Integer | 到、至、为、... | 否 | ||||
DECREASE_color_temperature | 减小屏幕或显示器的色温(变暖),支持设置调节幅度,或无具体数值 | 色温调低20 | amount | Integer | 色温减少的具体数值 | 否 | |
to | Integer | 到、至、为、... | 否 | ||||
音量设置 | CHANGE_volume | 将音量调节到某个具体值 | 音量调到50 | amount | Integer | 音量增加的具体数值 | 是 |
PLUS_volume | 将音量调高,支持通过具体数值调节。 | 音量调高10 | amount | Integer | 音量增加的具体数值 | 否 | |
to | Integer | 到、至、为、... | 否 | ||||
MINUS_volume | 将音量调低,支持通过具体数值调节。 | 音量调低10 | amount | Integer | 音量减小的具体数值 | 否 | |
to | Integer | 到、至、为、... | 否 | ||||
INCREASE_DEFAULT_volume | 默认调高音量(未明确指定调高数值) | 音量调高点 | |||||
DECREASE_DEFAULT_volume | 默认调低音量(未明确指定调低数值) | 音量调低点 | |||||
MUTE_volume | 静音 | 静音 | |||||
UNMUTE_volume | 取消静音 | 取消静音 | |||||
蓝牙 | DEVICE_LIST_bluetooth | 列出所有已配对的蓝牙设备 | 打开蓝牙列表 | ||||
SCAN_bluetooth | 搜索附近的可配对蓝牙设备 | 搜索蓝牙 | |||||
TURN_OFF_bluetooth | 关闭蓝牙功能 | 关闭蓝牙 | |||||
TURN_ON_bluetooth | 开启蓝牙功能 | 打开蓝牙 | |||||
应用开关 | OPEN_device | 打开、启动设备 | 打开耳机 | device | String | 设备名称,默认为当前设备 | 是 |
LAUNCH_app | 启动应用 | 打开播客 打开播客,开始播放 | name | String | 应用名称,默认为当前应用,例如:相册、应用中心、应用宝、微博、网易新闻、小红书、飞书、钉钉、bilibili、哔哩哔哩、B站、抖音、喜马拉雅、优酷、腾讯视频、爱奇艺、芒果tv、微信 | 是 | |
intent | String | 打开应用之后的意图/下一步动作 | 否 | ||||
CLOSE_device_or_app | 关闭、退出设备或应用 | 耳机关机 退出播客 | device | String | 设备名称,默认为当前设备 | 否 | |
app | String | 应用名称,默认为当前应用,例如:相册、应用中心、应用宝、微博、网易新闻、小红书、飞书、钉钉、bilibili、哔哩哔哩、B站、抖音、喜马拉雅、优酷、腾讯视频、爱奇艺、芒果tv、微信 | 否 | ||||
RESTART_device | 重启设备 | 重启眼镜 | device | String | 设备名称,默认为当前设备 | 否 | |
SHUTDOWN_assistant | 关闭智能助手服务 | 退出语音助手 | |||||
OPEN_notification | 打开消息通知 | 打开消息通知 | |||||
EXIT_notification | 关闭消息通知 | 关闭消息通知 | |||||
CLEAN_notification | 清除消息通知 | 清除所有通知 | |||||
OPEN_setting | 打开设置 | 打开设置 | type | String | 设置类型,包括:系统、通用、显示、音量、应用、设备连接、隐私政策; | 否 | |
EXIT_setting | 退出设置 | 退出设置 | |||||
设备控制 | BACK | 返回 | 回到上一级 | ||||
CONFIRM | 确认 | 好的 | |||||
CANCEL | 取消 | 不用了 | |||||
SELECT | 选择 | 选择第二个 | index | Integer | 序列号 | 否 | |
CHECK_battery | 电量查询 | 现在还剩多少电 | |||||
音乐播放 | PLAY_music | 播放音乐 | 放一首青花瓷 放一首纯音乐 打开虾米音乐播放青花瓷 | song | String | 歌曲名称 | 否 |
artist | String | 歌手 | 否 | ||||
album | String | 专辑 | 否 | ||||
type | String | 音乐类型,如:电子、流行、摇滚、抒情、乡村、爵士、纯音乐等 | 否 | ||||
style | String | 风格/流派 | 否 | ||||
language | String | 方言/语种 | 否 | ||||
general_tag | String | 场景/标签 | 否 | ||||
era | String | 年代 | 否 | ||||
sort | String | 排序,包括:最新、最热 | 否 | ||||
mode | String | 播放模式,例如:单曲循环、列表循环、随机播放、心动模式 | 否 | ||||
player | String | 播放音乐的应用程序或设备 | 否 | ||||
PLAY_DAILYLIST_music | 播放每日推荐歌单 | 播放每日推荐歌单 | |||||
PLAY_COLLECTION_music | 播放我喜欢的歌单 | 播放我喜欢的歌单 | |||||
PLAY_RANDOM_music | 随机播放歌曲(猜你喜欢),适合用户未指定任何歌曲信息时调用 | 随便放点歌 | |||||
LIKE_music | 喜欢/收藏 | 喜欢这首歌 | |||||
视频播放 | PLAY_video | 播放视频 | 播放一个刘德华的电影 播放一个张艺谋导演的电影 播放一个喜剧片 4K播放电影 播放一个和时尚有关的电影 播放一个法语电影 播放一个美国电影 播放一个九十年代的电影 打开优酷播放流浪地球 | title | String | 视频名称 | 否 |
actor | String | 主演/主要人物 | 否 | ||||
director | String | 导演/作者 | 否 | ||||
genre | String | 视频类型或电影类型 | 否 | ||||
theme | String | 主题 | 否 | ||||
language | String | 语言 | 否 | ||||
region | String | 地区 | 否 | ||||
year | String | 年份 | 否 | ||||
resolution | String | 分辨率,可选:标清/高清/超清/4K | 否 | ||||
player | String | 播放视频的应用程序或设备 | 否 | ||||
多媒体控制 | PREVIOUS_resource | 播放上一个多媒体资源(如歌曲、音视频等) | 播放上一首歌 优酷播放上一集 | resource_type | String | 需要切换到下一个的资源类型,例如:音乐、视频、新闻、故事、图片等 | 否 |
player | String | 播放多媒体内容的应用程序或设备 | 否 | ||||
NEXT_resource | 播放下一个多媒体资源(如歌曲、音视频等) | 播放下一首歌 优酷播放下一集 | resource_type | String | 需要切换到下一个的资源类型,例如:音乐、视频、新闻、故事、图片等 | 否 | |
player | String | 播放多媒体内容的应用程序或设备 | 否 | ||||
CHANGE_resource | 换一个多媒体资源播放(如歌曲、音视频等) | 换一首歌 优酷换一个电影播放 | resource_type | String | 需要切换到下一个的资源类型,例如:音乐、视频、新闻、故事、图片等 | 否 | |
player | String | 播放多媒体内容的应用程序或设备 | 否 | ||||
REPLAY_resource | 重新播放当前的多媒体资源(如歌曲、音视频等) | 重新播放七里香 电影从头开始播放 优酷视频从头播放 | name | String | 需要重新播放的资源名称 | 否 | |
resource_type | String | 需要重新播放的资源类型,例如:音乐、视频、新闻、故事、图片等 | 否 | ||||
player | String | 播放多媒体内容的应用程序或设备 | 否 | ||||
RESUME_operation_on_device | 恢复设备上被暂停或中断的操作,例如音乐/视频播放、录音等。 | 耳机继续播放 音乐继续播放 | String | 需要恢复操作的设备名称,如未指定则默认当前设备 | 否 | ||
operation_type | String | 需要恢复的操作类型,例如音乐播放、录像、录音等 | 否 | ||||
PAUSE_operation_on_device | 暂停设备上的当前进行的操作,例如音乐/视频播放、录音等。 | 耳机暂停一下 音乐暂停 | device_name | String | 需要暂停操作的设备名称,如未指定则默认当前设备 | 否 | |
operation_type | String | 需要暂停的具体操作类型,例如音乐播放、录像、录音等 | 否 | ||||
拍照录像 | PHOTO_camera | 拍照 | 拍张照片 | ||||
相机设置(支持模式切换、镜头控制、基础参数调整) | 打开夜景拍照模式 切到前置摄像头 关闭闪光灯 图像分辨率调到4k 打开自动对焦 曝光补偿值调到1 打开白平衡自动 把网格线关掉 打开高动态范围成像 | mode | String | 摄像模式,可选参数: 拍照/录像/慢动作/延时摄影/全景/夜景 | 否 | ||
lens_switch | String | 前后置镜头切换,可选参数: 前置/后置/外部镜头(如支持) | 否 | ||||
flash_mode | String | 闪光灯模式,例如: 自动/开启/关闭/防红眼 | 否 | ||||
resolution | String | 图像分辨率,例如: 1080p/4K/8K(根据设备支持) | 否 | ||||
focus_mode | String | 对焦模式,例如: 自动/手动/连续自动对焦 | 否 | ||||
exposure_compensation | Integer | 曝光补偿值(EV) | 否 | ||||
white_balance | String | 白平衡设置,例如: 自动/日光/阴天/白炽灯/荧光灯 | 否 | ||||
grid_lines | String | 网格线是否显示,例如: 开启/关闭 | 否 | ||||
hdr | String | 高动态范围成像,例如: 开启/关闭 | 否 | ||||
QUICK_BURST_camera | 连拍 | 连拍5张 | number | Integer | 连拍数量设置,默认为5 | 是 | |
VIDEO_recording | 录像 | 录制视频吧 | |||||
STOP_VIDEO_recording | 停止录像 | 停止录像 | |||||
SWITCH_MODE_camera | 切换相机模式 | 换成录影模式 | mode | String | 相机模式设置,例如: 拍照模式/摄影模式/预览模式 | 是 | |
录音 | AUDIO_recording | 录音 | 开始录制通话语音 | audio_app | String | 需要录制音频的应用,例如:电话, 录音机 | 否 |
STOP_AUDIO_recording | 停止录音 | 暂停录音 | |||||
朗读文字 | READ_screen | 读取当前屏幕上显示的内容(主要为文本),转化为音频播放 | |||||
打开地图 | ROUTE_map | 打开并显示从起点位置到终点位置的地图路线(也可以仅包含终点),仅显示路线,不进行导航 | endLoc_city | String | 终点城市 | 否 | |
startLoc_province | String | 起点省份 | 否 | ||||
endLoc_poi | String | 终点地名 | 否 | ||||
startLoc_area | String | 起点行政区(小于市级地区、大于具体地点的区域划分) | 否 | ||||
startLoc_poi | String | 起点地名 | 否 | ||||
startLoc_city | String | 起点城市 | 否 | ||||
endLoc_province | String | 终点省份 | 否 | ||||
endLoc_area | String | 终点行政区(小于市级地区、大于具体地点的区域划分) | 否 | ||||
发短信 | SENDCONTACTS_message | 给指定联系人发送其他联系人信息 | category | String | 信息类型,如手机 | 否 | |
receiver | String | 接收人 | 是 | ||||
name | String | 需要发送的联系人 | 是 | ||||
SEND_message | 给指定联系人发送信息 | content | String | 信息内容 | 否 | ||
contact | String | 接收信息的联系人 | 是 | ||||
phone | String | 接收人的手机号码 | 否 | ||||
VIEW_message | 查看消息 | message_type | String | 消息类型。如:短信、邮件等 | 是 | ||
屏幕控制 | OFF_screen | 熄屏/待机模式 | 熄屏 进入待机状态 | ||||
SHOT_screen | 对当前屏幕进行截图 | 截个屏 | |||||
START_recording | 开始屏幕录制 | 帮我录个屏 | |||||
STOP_recording | 停止屏幕录制并保存文件 | 结束录屏 |
自定义指令
除上述系统指令外,如果您需要实现更多控制技能,可以使用自定义指令。
自定义指令的结构与系统指令一致,每个指令类型可以创建多个指令。
每个指令包含指令名称、指令说明、指令示例;如果需要参数,还可以添加参数名称、参数说明和参数示例。
指令名称:建议使用英文,用于下发对应指令。
指令说明:解释该指令的作用。
指令示例:可以提供多条语料,提升模型对指令的下发准确率。
参数:支持设置多个参数,例如具体的调节数值;提供示例有助于模型理解参数的具体意义,下发更准确。
例如,设置一组指令用于调整台灯的亮度:
创建一个指令类型,命名为“台灯亮度控制”。
创建一个指令,命名为“brightness_increase”,作用是下发调高亮度的指令。可以填写一些命中该指令的语料,用于模型训练,例如“台灯调亮点”、台灯亮度调高20”。
如果需要下发具体参数,可以添加参数,填写名称、说明和示例。例如设置参数“to”,用于传递具体将台灯亮度调高到某个数值。提供参数示例,例如“亮度调高到20,to=20”。
每个指令类型可以创建多个指令,每个指令可以设置多个参数,也可以不设置任何参数。
创建指令后,在自定义指令列表中勾选并确定,即可将该指令添加到当前应用中自动生效。
如需测试指令是否生效,点击下方“立即运行”,即可开始测试。
插件
支持接入您在阿里云百炼创建的插件,以增强对话能力。
点击添加按钮,选择您需要的插件即可。
支持按需勾选多模态交互套件预置插件,您也可以在插件广场中选择,或接入自定义插件。
Agent
接入预置Agent
多模态交互应用提供一系列适用于不同场景的Agent,API参考调用官方Agent。
语音交互应用目前仅支持语音翻译Agent,敬请期待。
实时视频通话:实时视觉理解,适用于带有摄像头的设备。点开右侧设置,可配置功能名称、启动指令、退出指令以及提示词。
拍照问答:当识别到用户有画面理解的需求时,自动调用摄像头拍照并回复。适用于带有摄像头的设备。点开右侧设置,可配置提示词及触发指令。
新闻电台:每日更新热门新闻资讯,两位AI主播互动解说,用户可以随时打断并加入对话。点开右侧设置,可配置功能名称、启动指令、退出指令、续播指令以及角色音色。
语音翻译:多语种实时语音识别,并输出语音翻译、文本翻译结果。点开右侧设置,可配置功能名称、启动指令、退出指令,选择输出结果。
极速视频通话:基于Qwen-Omni模型的视频对话,支持响应速度更快的闲聊。点开右侧设置,可配置功能名称、启动指令以及退出指令。
拍照翻译:多模态应用专属,支持多语言、自动拍照的翻译能力,能够精准翻译眼前的文字。点开右侧设置,可配置触发指令、提示词以及对话变量,支持一键导入主对话链路中的提示词和变量配置。
儿童故事:陪伴式讲故事功能,拥有自有故事库,支持讲故事过程中的对话交互、故事创作和续写改写。点开右侧设置,可配置功能名称、启动指令、退出指令、语音合成模型以及对应音色。
接入百炼平台Agent
可以接入您在阿里云百炼平台创建的Agent,以增强对话能力。
接入三方Agent
支持客户开发的三方Agent接入,需基于Google A2A协议进行集成,详情请参考三方Agent接入。