工作流

更新时间:
复制为 MD 格式

工作流是对数据集中非结构化数据进行自动化处理的核心功能。通过在工作流中编排多个算子,您可以构建从数据输入、处理到输出的完整数据加工链路,实现对音频、视频、图片、文本、文档等多种类型数据的批量处理。

概述

工作流由一个或多个算子按顺序组成,每个算子负责一项特定的数据处理任务。上游算子的输出可作为下游算子的输入,形成数据处理的流水线。工作流的大致使用流程为:新建工作流任务 > 添加并配置算子 > 配置工作流任务属性 > 运行工作流 > 提交工作流。

工作流页面由顶部操作栏、算子库、画布区、右侧信息面板和底部状态栏五个部分组成。

image

区块

说明

顶部操作栏

  • 保存:保存当前工作流的编辑内容。

  • 运行:执行当前工作流整体。运行工作流将消耗Credit,单击运行时,若剩余Credit小于等于100,则可能导致工作流运行失败,建议先购买资源包后再试;若剩余Credit小于等于0,则工作流运行失败。若工作流运行过程中Credit余额不足,工作流将立即终止,需购买资源包后重试,算子运行成功的部分仍正常扣除Credit。

  • 提交:完成提交校验后,将工作流提交至生产环境。详情请参见工作流提交说明

算子库

算子库面板提供所有可用的算子,支持通过关键词搜索或按分类标签筛选。支持打开或收起算子库。算子按功能类型分为以下类别:

  • 通用:MD5精准去重、文件基本信息、音频基本信息、视频基本信息。

  • 文本:特殊字符移除、违规内容替换、隐私信息打码、SimHash值计算、文本推理(LLM)、多语言文本质量评分、简繁体转换、HTML正文提取、文本chunk切分。

  • 文档:PDF解析。

  • 图片:图片安全(NSFW)检测、图像美学评分、图片OCR、图片质量评分、图片理解等。

  • 音频:音频切片、音频转文本(ASR)、音频时间戳、音频语种检测、音频人声检测(VAD)、音频转码、音频增强、音频质量分、音频说话人分离(DIA)。

  • 视频:视频抽取音频、视频画质质量分。

  • 向量:图像Embedding、文本Embedding。

您可以将算子从算子库中拖入画布区进行使用。

画布区

画布区是工作流的主要编辑区域,将算子从左侧算子库拖入画布后,通过连线将多个算子串联,即可构建完整的数据处理流程。画布底部提供缩放控制工具,支持调整画布显示比例。画布中的算子支持运行、复制和删除操作。

  • 运行:可运行当前算子,或从根节点执行到当前算子。

  • 复制:复制出的算子与原算子配置相同。

  • 删除:删除当前算子。

信息面板

  • 属性:配置当前工作流的调度配置调度依赖运行参数运行配置资源配置,配置方式同离线计算任务。

    工作流运行配置中还支持配置算子加工异常,其他配置参数同离线计算任务,详情请参见计算任务运行配置

    算子加工异常:选择忽略异常数据继续执行,当算子抛出异常时,系统将跳过该数据并继续执行;选择异常后终止任务,当算子抛出异常时,工作流将直接终止。

  • 相关:查看与当前工作流相关的关联信息,详细信息请参见工作流相关对象介绍

  • 历史:查看工作流的历史操作记录,详细信息请参见查看工作流历史版本

底部状态栏

  • 查看控制台:运行工作流后,单击可展开控制台,查看运行信息和原始日志信息。其中运行信息中包含算子运行成功部分所消耗的Credit(总消耗Credit以及各算子分别消耗的Credit)。

  • 状态:展示当前工作流的状态,状态分为草稿、开发中、提交中已提交

  • 已提交详情:提交中和已提交的工作流单击后可提交记录。详情请参见工作流提交说明

  • 最近保存:展示最近一次保存的时间。