根据产品升级计划,原有的 离线集成 功能将进行调整。公告详情请参加: 【公告】数据管理部分功能整合升级至工作空间。本文档旨在为正在使用原离线集成功能的用户提供详细的迁移指导。
迁移路径概览
原离线集成的核心是编写并执行 ETL SQL。迁移至工作空间后,新的流程如下:
编写/迁移 SQL: 将您的 ETL 逻辑改写为 AnalyticDB Spark SQL。
在工作空间执行: 通过工作空间内的 Notebook 功能,执行您的 Spark SQL。
(可选)配置调度: 如果需要定时执行,可使用 Airflow 对 Notebook 任务进行调度。
前提条件与资源准备
在开始迁移之前,请确保您已根据下表准备好所需的环境和资源。
资源/组件 | 说明 | 参考文档 |
工作空间 (Workspace) | 新一代的集成开发环境,是执行新任务的平台。 | |
AnalyticDB Spark 引擎 | 任务执行所需的计算引擎,用于运行 Spark SQL。 | |
Notebook | 用于编写、调试和执行代码的交互式环境。 | |
Airflow(可选) | 若您有定时调度或复杂工作流编排需求,需准备此资源。 |
具体实施步骤
步骤一:编写或迁移您的 Spark SQL
迁移的核心是将原有的离线集成 SQL 逻辑,调整为符合 AnalyticDB Spark 语法的 SQL。您可以参考官方文档进行 SQL 的开发与调试:基于AnalyticDB Spark快速构建开放湖仓分析。
步骤二:在工作空间中手动执行任务
对于单次执行或需要手动触发的任务,请按以下步骤操作:
新建Notebook文件并执行相关代码。
如下为您展示两种新建Notebook文件的方式,您可任选其一。
手动创建文件
单击工作空间右侧的
(资源管理器)。在CODE区域,在空白区域点击右键,选择新建Notebook文件。
输入文件名称,再单击确定。
使用导入功能导入文件
单击工作空间右侧的
(资源管理器)。在CODE区域,在空白区域点击右键,选择上传文件。
输入文件名称,再单击确定。
说明新建Notebook文件后,如果文件没有出现在工作空间区域,请单击
刷新资源管理器。双击文件名称,进入执行代码页面进行作业开发。
工作语音选择SQL,在Cell中输入相关代码,再单击
执行按钮。如果页面出现提示“运行失败,需要您先创建并挂载Notebook会话资源”,则需要单击创建会话。
创建Notebook会话。
单击创建会话,并配置如下参数信息。
参数
说明
会话名称
您可自定义会话名称。
所属集群
选择目标集群类型。
如果您仅需要使用CPU执行,则选择DMS默认CPU集群即可(创建工作空间时,已自动创建)。
如果您需要使用Spark开发作业,则选择Spark集群(需要手动创建)。
您可在集群下拉列表单击创建集群,选择创建Spark集群。
镜像
页面会根据您选择的集群类型展示对应的镜像规格。
Spark3.5_Scala2.12_Python3.9:1.0.9
Spark3.3_Scala2.12_Python3.9:1.0.9
Spark3.5_Scala2.12_Python3.13:1.0.9
Spark3.5_Scala2.12_Python3.11:1.0.9
规格
Driver的资源规格。
1核4 GB
2核8 GB
4核16 GB
8核32 GB
16核64 GB
配置
profile资源。
您可编辑profile的名称、资源释放时长、数据存储位置、Pypi包管理和环境变量信息。
说明资源释放时长:当资源空闲时间超过设置的时长,则会自动释放。资源释放时长设置为0,表示资源永久不会自动释放。
单击完成,去创建。
当会话状态为运行中,表示创建成功。
初次创建会话大约耗时5分钟左右,后续创建或重启会话大约需要1分钟左右。
重新执行代码。
在Spark SQL Cell中执行的代码,您可在数据目录
区域查看。
步骤三:(可选)配置定时调度任务
如果您需要将任务配置为周期性自动执行,可以使用 Airflow 进行调度。
首先,了解如何通过 DMS Airflow 与 AnalyticDB Spark 构建一个完整的数据开发调度任务。可参考文档: 基于AnalyticDB Spark+DMS Airflow搭建湖仓工作流。
在 Airflow DAG 中,使用
DMSNotebookOperator来调用您在步骤二中创建的 Notebook 文件。算子使用说明可参考: DMSNotebookOperator。