PAI Flow提供端到端机器学习流程开发能力,可实现与人工智能平台 PAI 的可视化建模 Desiger相同的工作流功能,并能周期性调度工作流。
使用限制
产品限制:
PAI Flow仅支持DataWorks工作空间(新版)。
PAI Flow目前仅支持源/目标与RAG数据处理节点。
PAI Flow仅支持Serverless资源组。
地域限制:支持华东1(杭州)、华东2(上海)、华北2(北京)、华北6(乌兰察布)、华南1(深圳)、中国香港、新加坡、印度尼西亚(雅加达)、日本(东京)、德国(法兰克福)、美国(硅谷)、美国(弗吉尼亚)。
前提条件
已创建DataWorks数据开发(Data Studio)(新版)工作空间与人工智能平台 PAI工作空间。
创建工作空间时,需勾选创建同名AI工作空间,系统将自动创建与DataWorks同名的PAI工作空间并绑定。
已有空间若要开启调度PAI算法任务,需在管理中心开启。此操作将同步创建与DataWorks空间同名的PAI工作空间。
创建PAI Flow
进入数据开发页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
在数据开发的项目目录模块单击
,选择 ,创建并进入PAI Flow流程编排页面,新建节点。
开发PAI Flow
PAI Flow支持多种可视化建模节点,您可根据不同节点,进行流程设计与节点开发。
在PAI Flow内,在左侧选择需要节点,拖拽至画布中,通过手动连线的方式进行流程设计。
完成流程设计后,单击节点,即可在右侧面板内配置节点。
节点类型
节点
节点说明
源/目标
读数据表组件用于读取MaxCompute表数据,默认读取本项目的表数据。
该组件用来读取对象存储
OSS Bucket
路径下的文件或文件夹。组件支持从
OSS
、HTTP
、HDFS
读取CSV
类型的文件数据。该组件支持将上游数据写入
MaxCompute
中。RAG数据处理
RAG文本解析分块
读取并解析输入目录下的文本文件(
HTML
,PDF
,Markdown
,Text
等),生成不大于指定块大小的连续文本块,以JSONline
格式保存到指定输出路径中。RAG向量生成
加载指定目录下的所有解析分块的文档文件(
JSONline
格式),然后使用Embedding
模型生成文本向量。RAG知识库索引同步
同步输入数据到目标知识库索引。
说明配置文件路径时,可在路径中配置变量,例如:
https://examplebucket.oss-cn-hangzhou.aliyuncs.com/${变量}/example.csv
。在配置变量时,可将调度参数作为变量,实现周期调度时读取或写入不同存储路径。完成节点开发后,在流程编排页面右侧工具栏为PAI Flow配置调度配置,确保发布至生产环境后周期调度。
说明进行调度配置时,调度资源组仅支持Serverless资源组。
发布PAI Flow
完成PAI Flow的调试运行和调度配置后,只有提交发布PAI Flow流程后,节点后才会根据调度配置内容进行周期性运行。
单击上方工具栏中的保存按钮,保存PAI Flow。
完成保存后,单击上方工具栏中的
按钮,唤起发布面板发布任务,单击开始发布生产,任务将按照发布检查流程执行发布操作。
后续步骤
PAI Flow发布成功后,即可在发布面板中单击去运维按钮,跳转至周期任务页面,查看PAI Flow的调度运行情况。
在DAG图中只有打开PAI Flow后,才可查看内部任务。