离线集成迁移至工作空间操作指引

更新时间:
复制为 MD 格式

根据产品升级计划,原有的 离线集成 功能将进行调整。公告详情请参加: 【公告】数据管理部分功能整合升级至工作空间。本文档旨在为正在使用原离线集成功能的用户提供详细的迁移指导。

迁移路径概览

原离线集成的核心是编写并执行 ETL SQL。迁移至工作空间后,新的流程如下:

  1. 编写/迁移 SQL: 将您的 ETL 逻辑改写为 AnalyticDB Spark SQL。

  2. 在工作空间执行: 通过工作空间内的 Notebook 功能,执行您的 Spark SQL。

  3. (可选)配置调度: 如果需要定时执行,可使用 Airflow 对 Notebook 任务进行调度。


前提条件与资源准备

在开始迁移之前,请确保您已根据下表准备好所需的环境和资源。

资源/组件

说明

参考文档

工作空间 (Workspace)

新一代的集成开发环境,是执行新任务的平台。

工作空间准备

AnalyticDB Spark 引擎

任务执行所需的计算引擎,用于运行 Spark SQL。

企业版、基础版及湖仓版快速入门

Notebook

用于编写、调试和执行代码的交互式环境。

Notebook开发

Airflow(可选)

若您有定时调度或复杂工作流编排需求,需准备此资源。

准备Airflow所需资源


具体实施步骤

步骤一:编写或迁移您的 Spark SQL

迁移的核心是将原有的离线集成 SQL 逻辑,调整为符合 AnalyticDB Spark 语法的 SQL。您可以参考官方文档进行 SQL 的开发与调试:基于AnalyticDB Spark快速构建开放湖仓分析

步骤二:在工作空间中手动执行任务

对于单次执行或需要手动触发的任务,请按以下步骤操作:

  1. 新建Notebook文件并执行相关代码。

    如下为您展示两种新建Notebook文件的方式,您可任选其一。

    手动创建文件

    1. 单击工作空间右侧的image(资源管理器)。

    2. CODE区域,在空白区域点击右键,选择新建Notebook文件

    3. 输入文件名称,再单击确定

    使用导入功能导入文件

    1. 单击工作空间右侧的image(资源管理器)。

    2. CODE区域,在空白区域点击右键,选择上传文件。

    3. 输入文件名称,再单击确定

    说明

    新建Notebook文件后,如果文件没有出现在工作空间区域,请单击image刷新资源管理器。

  2. 双击文件名称,进入执行代码页面进行作业开发。

  3. 工作语音选择SQL,在Cell中输入相关代码,再单击image执行按钮。

    如果页面出现提示“运行失败,需要您先创建并挂载Notebook会话资源”,则需要单击创建会话

  4. 创建Notebook会话。

    1. 单击创建会话,并配置如下参数信息。

      参数

      说明

      会话名称

      您可自定义会话名称。

      所属集群

      选择目标集群类型。

      • 如果您仅需要使用CPU执行,则选择DMS默认CPU集群即可(创建工作空间时,已自动创建)。

      • 如果您需要使用Spark开发作业,则选择Spark集群(需要手动创建)。

        您可在集群下拉列表单击创建集群,选择创建Spark集群

      镜像

      页面会根据您选择的集群类型展示对应的镜像规格。

      • Spark3.5_Scala2.12_Python3.9:1.0.9

      • Spark3.3_Scala2.12_Python3.9:1.0.9

      • Spark3.5_Scala2.12_Python3.13:1.0.9

      • Spark3.5_Scala2.12_Python3.11:1.0.9

      规格

      Driver的资源规格。

      • 14 GB

      • 28 GB

      • 416 GB

      • 832 GB

      • 1664 GB

      配置

      profile资源。

      您可编辑profile的名称、资源释放时长、数据存储位置、Pypi包管理和环境变量信息。

      说明

      资源释放时长:当资源空闲时间超过设置的时长,则会自动释放。资源释放时长设置为0,表示资源永久不会自动释放。

    2. 单击完成,去创建

      当会话状态为运行中,表示创建成功。

      初次创建会话大约耗时5分钟左右,后续创建或重启会话大约需要1分钟左右。

  5. 重新执行代码。

    Spark SQL Cell中执行的代码,您可在数据目录image区域查看。

步骤三:(可选)配置定时调度任务

如果您需要将任务配置为周期性自动执行,可以使用 Airflow 进行调度。

  1. 首先,了解如何通过 DMS Airflow 与 AnalyticDB Spark 构建一个完整的数据开发调度任务。可参考文档: 基于AnalyticDB Spark+DMS Airflow搭建湖仓工作流

  2. 在 Airflow DAG 中,使用 DMSNotebookOperator 来调用您在步骤二中创建的 Notebook 文件。算子使用说明可参考: DMSNotebookOperator