PAI Flow的配置与运维-大数据开发治理平台 DataWorks(DataWorks)-阿里云帮助中心

使用限制

产品限制：
- PAI Flow仅支持DataWorks工作空间（新版）。
- PAI Flow目前仅支持源/目标与RAG数据处理节点。
- PAI Flow仅支持Serverless资源组。
地域限制：支持华东1（杭州）、华东2（上海）、华北2（北京）、华北6（乌兰察布）、华南1（深圳）、中国香港、新加坡、印度尼西亚（雅加达）、日本（东京）、德国（法兰克福）、美国（硅谷）、美国（弗吉尼亚）。

已创建DataWorks数据开发（Data Studio）（新版）工作空间与人工智能平台 PAI工作空间。

进入数据开发页面。
登录DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据开发与运维 > 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。
在数据开发的项目目录模块单击，选择新建节点 > 算法 > PAI Flow，创建并进入PAI Flow流程编排页面，新建节点。

PAI Flow支持多种可视化建模节点，您可根据不同节点，进行流程设计与节点开发。

完成流程设计后，单击节点，即可在右侧面板内配置节点。

节点类型	节点	节点说明
源/目标	读数据表	读数据表组件用于读取MaxCompute表数据，默认读取本项目的表数据。
	读OSS数据	该组件用来读取对象存储`OSS Bucket`路径下的文件或文件夹。
	读CSV文件	组件支持从`OSS`、`HTTP`、`HDFS`读取`CSV`类型的文件数据。
	写数据表	该组件支持将上游数据写入`MaxCompute`中。
RAG数据处理	RAG文本解析分块	读取并解析输入目录下的文本文件（`HTML`, `PDF`, `Markdown`, `Text`等），生成不大于指定块大小的连续文本块，以`JSONline`格式保存到指定输出路径中。
	RAG向量生成	加载指定目录下的所有解析分块的文档文件（`JSONline`格式），然后使用`Embedding`模型生成文本向量。
	RAG知识库索引同步	同步输入数据到目标知识库索引。

说明

配置文件路径时，可在路径中配置变量，例如：https://examplebucket.oss-cn-hangzhou.aliyuncs.com/${变量}/example.csv。在配置变量时，可将调度参数作为变量，实现周期调度时读取或写入不同存储路径。

完成节点开发后，在流程编排页面右侧工具栏为PAI Flow配置调度配置，确保发布至生产环境后周期调度。

说明
进行调度配置时，调度资源组仅支持Serverless资源组。

完成PAI Flow的调试运行和调度配置后，只有提交发布PAI Flow流程后，节点后才会根据调度配置内容进行周期性运行。

PAI Flow发布成功后，即可在发布面板中单击去运维按钮，跳转至周期任务页面，查看PAI Flow的调度运行情况。

说明

在DAG图中只有打开PAI Flow后，才可查看内部任务。