配置语音和图片识别

本文为您介绍如何在AI助手中配置并使用语音和图片的识别功能,帮助您更高效地处理音视觉内容。

前提条件

已经创建AI助手并完成web页面集成。具体操作,请参见创建AI助手

开启图片识别

重要

要实现图片识别功能,需在AI助手中导入支持图片处理的模型,本文以使用阿里云百炼的Qwen-VL模型为例。更多模型,请参见模型列表

  1. 进入AppFlow-AI助手页面。选择目标AI助手,在AI助手详情页的集成页签中,单击web页面集成

    image

  2. 单击需要配置的集成ID/名称,在消息设置区域中勾选是否支持图片选项,然后单击提交以保存设置。

    image

  3. 测试图片识别功能。

    本节以访问独立部署页面为例,单击上传图片,上传完成后在对话框中输入问题。

    image

开启语音识别

步骤一:创建阿里云智能语音交互语音识别项目

  1. 进入阿里云智能语音交互首页开通服务

  2. 进入阿里云智能语音交互-全部项目,单击创建项目

  3. 在对话框中填写项目名称项目类型选择为语音识别+语音合成+语音分析仅语音识别,单击确定

    image

  4. 在跳转的项目详情页面,单击复制保存appkey,同时可修改语音识别模型的配置信息以满足不同需求。具体操作,请参见管理项目

    image

步骤二:在AppFlow中配置阿里云智能语音交互

  1. 进入AppFlow-AI助手页面,选择目标AI助手。

  2. AI助手详情通用设置区域下,开启语音输入并单击配置

  3. 在对话框中选择连接器智能语音交互选择执行动作录音文件识别,单击下一步

    image

  4. 设置智能语音交互凭证。

    1. 单击添加新凭证,输入凭证名称将角色类型选择创建新角色,输入角色名称并单击创建角色

      image

    2. 设置权限策略名称,单击创建策略

      说明

      该策略针对阿里云智能语音交互服务(NLS) ,允许角色调用相关API来提交任务和获取任务结果。

      image

    3. 单击授权

  5. 选择新创建的链接凭证,单击下一步

  6. 参数配置中将步骤一中保存的appkey,填入AppKey并单击保存

    image

  7. 此时在页面设置右侧的预览页面中,可看到已经支持语音输入。

    image

步骤三:在web页面集成中开启语音支持

  1. 进入AppFlow-AI助手页面。在AI助手详情集成页签中,单击web页面集成

    image

  2. 单击需要配置的集成ID/名称,在消息设置区域中勾选是否支持语音选项,然后单击提交以保存设置。

    image

  3. 测试语音交互功能。

    本节以访问独立部署页面为例,单击对话框中的话筒图标进行语音输入。

    image