基于LangStudio&语音识别服务搭建音频内容智能总结助手

基于 LangStudio 的“音频总结助手”模板,开发者可快速构建集成语音识别和智能总结功能的 AI 应用,自动将音频/视频文件转录为文本并根据用户需求生成结构化总结报告。开发者可以基于该模板进行灵活扩展和二次开发,以满足会议纪要、学习笔记、播客总结等特定场景的需求。

方案概览

本方案主要涉及以下阿里云服务:

  • 阿里云百炼:提供核心的语音识别服务大语言模型(LLM)能力。

  • LangStudio:用于开发和调试应用的应用流平台。

  • PAI-EAS:用于将开发完成的应用流部署为可供外部调用的在线服务。

步骤一:创建服务连接

为使应用流能够调用语音识别和 LLM 能力,需要先在 LangStudio 中创建相应的服务连接。本文使用阿里云百炼提供的语音识别和通用LLM服务来进行语音识别和内容总结。

创建阿里云百炼大模型服务连接

在开始操作前,请确保您已开通阿里云百炼服务,该服务为后付费,按实际调用量计费。

  1. 在 LangStudio 的 连接 > 模型服务页签下,单击新建连接

  2. 连接类型选择百炼大模型服务,按照页面指引填写api_key。详情请参见获取与配置 API Key

说明

应用流中的内容总结节点也可以使用非阿里云百炼提供的大模型服务,兼容 OpenAI API即可

步骤二:创建并配置应用流

1. 创建运行时

目的:为应用流的开发和调试提供计算环境。

  1. 在 LangStudio 的运行时页签,单击新建运行时

  2. 填写运行时名称,其他参数保持默认。

  3. 单击确定,等待运行时启动成功。

2. 基于模板创建应用流

目的:从“音频总结助手”模板快速初始化一个应用。

  1. 探索 > AI应用模板找到音频总结助手,单击新建应用流

  2. 在弹出的对话框中,选择运行时为上一步创建的运行时实例。工作路径将自动填充。

  3. 单击确定

3. 配置关键节点

  • 语音识别节点:将上传的音频/视频文件转录为文本内容。

    • 模型设置:选择步骤一创建的阿里云百炼模型服务连接,模型选择 paraformer-v1。

  • 内容总结助手节点:调用大语言模型对转录文本进行智能总结。

    • 模型设置:选择步骤一创建的阿里云百炼模型服务连接。选择一个模型,如qwen3-max

    • 对话历史:可按需开启,用于支持多轮对话。

4. 调试与运行

在部署为正式服务前,您可以在 LangStudio 内对应用流进行调试,以验证其功能是否符合预期。

  1. 在画布右上角,单击运行

  2. 在调试面板中,通过本地上传输入URL上传的方式,提供一个音频文件。

  3. 对话输入框中,输入总结要求,例如“请帮我生成一份会议纪要”。

  4. 应用流会实时提示中间处理状态,单次回答完成后自动折叠,支持再次展开查看。

  5. 如需下载 .md 格式的总结文件,可单击查看其他输出进行下载。

  6. 如需分析内部执行细节,可单击查看链路,在拓扑视图中检查各节点的输入与输出。

步骤三:部署为在线服务

调试通过后,将应用流部署为 PAI-EAS 在线服务,即可通过 API 将其集成到其他业务系统中。

  1. 在应用流画布的右上角,单击部署

  2. 在弹出的对话框中,配置以下参数:

    • 服务创建方式:选择新建服务。

    • 服务名称:自定义服务名称。

    • 资源配置:根据预估的访问量选择合适的资源组和资源规格。

    • 专有网络配置:阿里云百炼模型服务需通过公网调用,EAS默认无法访问公网,需为EAS服务配置专有网络,详情请参见网络配置

  3. 单击确定。在跳转的部署流程页面中单击提交部署

  4. 单击右上角跳转到EAS,等待服务状态变为运行中,此过程可能需要5-10分钟。

步骤四:调用已部署的服务

服务部署成功后,可以在 PAI-EAS 服务详情页获取访问地址和Token,用于 API 调用,从而将总结能力集成到业务应用中。

请求 Body 说明

请求 Body 中的字段需与应用流开始节点的输入参数保持一致。

字段

类型

是否必填

说明

question

String

您的总结要求,例如“总结下这份访谈的核心观点”。

audio

Object

音频文件信息。通过 API 调用时,音频文件必须以文件路径的形式在 source_uri 属性中提供。

audio.source_uri

String

音频文件的访问路径。支持 OSS URI (oss://<bucket-name>/<object-path>) 以及 HTTP/HTTPS 链接

chat_history

Array

对话历史上下文。首次调用时可传入空数组 []

cURL 调用示例

请将示例代码中的 <Your-EAS-Endpoint><Your-EAS-Token> 替换为您的实际服务地址和令牌。

# 设置环境变量
export EAS_SERVICE_URL="<Your-EAS-Endpoint>"
export EAS_TOKEN="<Your-EAS-Token>"

# 发送请求
curl "$EAS_SERVICE_URL" \
  -H "Authorization: $EAS_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "question": "总结下这份访谈的核心观点",
    "chat_history": [],
    "audio": {
      "source_uri": "oss://your-bucket-name/audios/ai_future_talk.mp3"
    }
  }'

资源清理

为避免产生不必要的费用,请在完成实验后,务必及时清理所有相关资源。其中,PAI-EAS 在线服务是主要的持续计费项。

  1. 清理 PAI-EAS 服务:前往 PAI-EAS 控制台,停止并删除部署的应用服务。

  2. 清理 LangStudio 运行时:在 LangStudio 的 运行时 页签停止并删除运行时实例。

  3. 清理 OSS 文件:如果您在调试或调用时上传了文件到对象存储 OSS,请前往 OSS 控制台删除,以节省存储成本。