如何使用通义听悟Agent完成工业生产指令转写-大模型服务平台百炼-阿里云-大模型服务平台百炼(Model Studio)-阿里云帮助中心

本文介绍如何配置并使用通义听悟-工业生产指令转写Agent。

准备工作

开通通义听悟 Agent 服务。

说明

开通后即可使用阿里云百炼平台全系通义听悟 Agent 服务。

一、创建应用

点击控制台页面中间或右上角的创建应用按钮，进行应用创建，支持创建最多100个应用。

二、调试配置

完成调试配置后，您可多次体验效果，确认效果满足预期后再发布应用，并参照API接入进行实际开发调用。

1. 选择指令集

您可以在此选择在转写中生效的指令集，指令集中可以包含应用场景中难以识别的专业词汇或特殊指令，如：

左翼子板和左前围
漆渣
放倒后排右侧座椅靠背
肠系膜上动脉栓塞

如果您未添加过指令集，您可以通过上传文件的方式添加指令集，支持.xlsx, .xls, .csv, .txt格式的文件，请注意：

每个指令集最多包含1000行指令，每条指令长度必须在2-30字符之间。
指令仅支持中文、英文和数字，不支持符号。
具体文件格式请点击下载模板并参考其中的指令集文件内容。

您最多可以添加10个指令集，指令集在所有工业指令转写应用间共享。

2. 语音输入

模型选择

目前支持以下模型：

一句话识别及翻译 V1.0模型（支持最长60s的音频识别和翻译）。

输入语种

此处可配置录音时的识别语种，目前支持：

多语种：将自动识别发言语种。
单语种：若您的应用场景仅存在单一语种，可以指定单一语种，目前支持中文、英文、粤语、韩语、日语、德语、法语、俄语、意大利语和西班牙语。

说明

界面化的应用配置在发布后会对 API 生效。

完成上述配置后，即可点击立即录音按钮进行调试（步骤3. 应用信息仅在接口调用时需要参考）。

如需查看调试效果和测试记录，请参见体验效果。

3. 应用信息

415

应用名称

在此处复制或修改本应用名称。

应用ID

在此处查看或复制本应用ID。

应用描述

在此处添加本应用的描述信息。

三、体验效果

点击立即录音按钮后，浏览器可能会申请您的麦克风权限，请点击允许访问。

之后您可以通过麦克风输入待测试的工业指令，点击结束录音或模型自动识别到一句话说完后，会返回工业指令的最终纠正结果。

对话内容

对话内容中显示的是输入音频的中文翻译结果。

指令纠正

指令纠正中显示的是对话内容通过大模型纠正后的指令结果。

测试记录

当前应用的所有调试测试结果，将统一进行保存记录，点击控制台右上角的测试记录按钮可进行查看。

测试记录列表会展示多维度的信息，具体包括测试时间、任务ID、任务状态、使用的指令集、对话内容和指令纠正结果。

四、发布应用

点击控制台右上角的发布按钮，输入版本描述信息，即可完成发布，应用发布后线上将立即生效。

版本管理

应用发布后，可在控制台右上角的版本管理中查看历史版本。选择某个历史版本，点击右下角覆盖当前草稿按钮，则该版本的配置信息将自动带入到当前草稿中。

五、API接入

应用发布完成后，稍等片刻，点击控制台顶部API 接入按钮，查看对应的 Java 和 Python 接入参考代码，然后接入到您的业务系统中。

六、删除应用

在我的应用列表中，可删除某个应用。

删除后不可恢复，为避免影响您的线上业务，请务必谨慎操作。