离线集成迁移至工作空间操作指引-数据管理 DMS-阿里云帮助中心

根据产品升级计划，原有的离线集成功能将进行调整。公告详情请参加：【公告】数据管理部分功能整合升级至工作空间。本文档旨在为正在使用原离线集成功能的用户提供详细的迁移指导。

迁移路径概览

原离线集成的核心是编写并执行 ETL SQL。迁移至工作空间后，新的流程如下：

在开始迁移之前，请确保您已根据下表准备好所需的环境和资源。

迁移的核心是将原有的离线集成 SQL 逻辑，调整为符合 AnalyticDB Spark 语法的 SQL。您可以参考官方文档进行 SQL 的开发与调试：基于AnalyticDB Spark快速构建开放湖仓分析。

对于单次执行或需要手动触发的任务，请按以下步骤操作：

新建Notebook文件并执行相关代码。
如下为您展示两种新建Notebook文件的方式，您可任选其一。
手动创建文件
1. 单击工作空间右侧的（资源管理器）。
2. 在CODE区域，在空白区域点击右键，选择新建Notebook文件。
3. 输入文件名称，再单击确定。
使用导入功能导入文件
1. 单击工作空间右侧的（资源管理器）。
2. 在CODE区域，在空白区域点击右键，选择上传文件。
3. 输入文件名称，再单击确定。
说明
新建Notebook文件后，如果文件没有出现在工作空间区域，请单击刷新资源管理器。
双击文件名称，进入执行代码页面进行作业开发。
工作语音选择SQL，在Cell中输入相关代码，再单击执行按钮。
如果页面出现提示“运行失败，需要您先创建并挂载Notebook会话资源”，则需要单击创建会话。

创建Notebook会话。

单击创建会话，并配置如下参数信息。

参数	说明
会话名称	您可自定义会话名称。
所属集群	选择目标集群类型。如果您仅需要使用CPU执行，则选择DMS默认CPU集群即可（创建工作空间时，已自动创建）。如果您需要使用Spark开发作业，则选择Spark集群（需要手动创建）。您可在集群下拉列表单击创建集群，选择创建Spark集群。
镜像	页面会根据您选择的集群类型展示对应的镜像规格。 Spark3.5_Scala2.12_Python3.9:1.0.9 Spark3.3_Scala2.12_Python3.9:1.0.9 Spark3.5_Scala2.12_Python3.13:1.0.9 Spark3.5_Scala2.12_Python3.11:1.0.9
规格	Driver的资源规格。 1核4 GB 2核8 GB 4核16 GB 8核32 GB 16核64 GB
配置	profile资源。您可编辑profile的名称、资源释放时长、数据存储位置、Pypi包管理和环境变量信息。说明资源释放时长：当资源空闲时间超过设置的时长，则会自动释放。资源释放时长设置为0，表示资源永久不会自动释放。

如果您需要将任务配置为周期性自动执行，可以使用 Airflow 进行调度。

首先，了解如何通过 DMS Airflow 与 AnalyticDB Spark 构建一个完整的数据开发调度任务。可参考文档：基于AnalyticDB Spark+DMS Airflow搭建湖仓工作流。
在 Airflow DAG 中，使用 DMSNotebookOperator 来调用您在步骤二中创建的 Notebook 文件。算子使用说明可参考： DMSNotebookOperator。