PAI Flow节点

PAI Flow提供端到端机器学习流程开发能力,可实现与人工智能平台 PAI 的可视化建模 Desiger相同的工作流功能,并能周期性调度工作流。

使用限制

  • 产品限制

    • PAI Flow仅支持DataWorks工作空间(新版)

    • PAI Flow目前仅支持源/目标RAG数据处理节点。

    • PAI Flow仅支持Serverless资源组

  • 地域限制:支持华东1(杭州)、华东2(上海)、华北2(北京)、华北6(乌兰察布)、华南1(深圳)、中国香港、新加坡、印度尼西亚(雅加达)、日本(东京)、德国(法兰克福)、美国(硅谷)、美国(弗吉尼亚)。

前提条件

已创建DataWorks数据开发(Data Studio)(新版)工作空间人工智能平台 PAI工作空间

  • 创建工作空间时,需勾选创建同名AI工作空间,系统将自动创建与DataWorks同名的PAI工作空间并绑定。

  • 已有空间若要开启调度PAI算法任务,需在管理中心开启。此操作将同步创建与DataWorks空间同名的PAI工作空间。

创建PAI Flow

  1. 进入数据开发页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与运维 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 在数据开发的项目目录模块单击image,选择新建节点 > 算法 > PAI Flow,创建并进入PAI Flow流程编排页面,新建节点。

开发PAI Flow

PAI Flow支持多种可视化建模节点,您可根据不同节点,进行流程设计与节点开发。

  1. PAI Flow内,在左侧选择需要节点,拖拽至画布中,通过手动连线的方式进行流程设计。

  2. 完成流程设计后,单击节点,即可在右侧面板内配置节点。

    节点类型

    节点

    节点说明

    源/目标

    读数据表

    读数据表组件用于读取MaxCompute表数据,默认读取本项目的表数据。

    OSS数据

    该组件用来读取对象存储OSS Bucket路径下的文件或文件夹。

    CSV文件

    组件支持从OSSHTTPHDFS读取CSV类型的文件数据。

    写数据表

    该组件支持将上游数据写入MaxCompute中。

    RAG数据处理

    RAG文本解析分块

    读取并解析输入目录下的文本文件(HTML, PDF, Markdown, Text等),生成不大于指定块大小的连续文本块,以JSONline格式保存到指定输出路径中。

    RAG向量生成

    加载指定目录下的所有解析分块的文档文件(JSONline格式),然后使用Embedding模型生成文本向量。

    RAG知识库索引同步

    同步输入数据到目标知识库索引。

    说明

    配置文件路径时,可在路径中配置变量,例如:https://examplebucket.oss-cn-hangzhou.aliyuncs.com/${变量}/example.csv。在配置变量时,可将调度参数作为变量,实现周期调度时读取或写入不同存储路径。

  3. 完成节点开发后,在流程编排页面右侧工具栏为PAI Flow配置调度配置,确保发布至生产环境后周期调度。

    说明

    进行调度配置时,调度资源组仅支持Serverless资源组

发布PAI Flow

完成PAI Flow的调试运行和调度配置后,只有提交发布PAI Flow流程后,节点后才会根据调度配置内容进行周期性运行。

  1. 单击上方工具栏中的保存按钮,保存PAI Flow

  2. 完成保存后,单击上方工具栏中的image按钮,唤起发布面板发布任务,单击开始发布生产,任务将按照发布检查流程执行发布操作。

后续步骤

PAI Flow发布成功后,即可在发布面板中单击去运维按钮,跳转至周期任务页面,查看PAI Flow的调度运行情况。

说明

DAG图中只有打开PAI Flow后,才可查看内部任务。