数据管理DMS任务编排功能的AnalyticDB MySQL Spark节点,支持周期性、有顺序地调度Spark作业。本文介绍如何配置AnalyticDB MySQL Spark节点。
背景信息
使用常规的Spark开发编辑器或命令行等工具进行AnalyticDB MySQL Spark作业开发时,仅可单次调度Spark作业,且作业间无依赖关系和执行顺序。
为解决以上痛点,您可以使用DMS的AnalyticDB MySQL Spark节点进行Spark作业开发、调度。
应用场景
机器学习
图像处理
推荐系统
报表分析
数据挖掘
前提条件
购买了AnalyticDB MySQL湖仓版(3.0)集群。购买的具体操作,请参见创建湖仓版集群。
说明集群所在地域与AnalyticDB for MySQL Spark节点支持的任一地域一致。目前支持华北3(张家口)、华东1(杭州)、华东2(上海)、华南1(深圳)、华北2(北京)、中国(香港)、美国(硅谷)、美国(弗吉尼亚)、新加坡地域。
在已购买集群中新建了对应类型的资源组。具体操作,请参见新建资源组。
说明若您需要使用AnalyticDB MySQL Spark节点的Warehouse数仓能力,则需要满足如下条件:
集群在华东2(上海)地域。
资源组的任务类型为Interactive。
创建资源组时引擎选择Spark。
若RAM用户(子账号)使用AnalyticDB for MySQL Spark节点,则需要阿里云账号(主账号)授予
adb:SubmitSparkApp
、adb:DescribeDBClusters
、adb:DescribeDBResourceGroup
权限。授权的具体操作,请参见为RAM用户授权。
操作步骤
- 登录数据管理DMS 5.0。
单击控制台左上角的图标,选择
。说明若您使用的是非极简模式的控制台,在顶部菜单栏中,选择
。单击目标任务流名称,进入任务流详情页面。
说明如果您需要新增任务流,请参见新增任务流。
在画布左侧的任务类型列表中,拖拽ADB Spark节点到右侧画布的空白区域。
单击节点配置页右侧的变量设置页签,配置变量。
双击ADB Spark节点,配置如下信息:
类别
配置项
说明
基础配置
地域
选择目标AnalyticDB for MySQL实例所在地域。目前仅支持华北3(张家口)、华东1(杭州)、华东2(上海)。
ADB实例
选择已有实例。若未创建实例,请单击去创建。创建的具体操作,请参见创建湖仓版(3.0)集群。
ADB资源组
选择目标资源组,若下拉框中未出现已创建的资源组,请单击刷新。创建资源组的具体操作,请参见新建资源组。
任务类型
根据作业配置内容选择Batch或SQL任务类型。
说明当集群的资源组为Interactive类型,且引擎为Spark时,任务类型仅支持选择SQL。
任务类型说明如下:
Batch:选择Batch后,可在作业配置区域输入描述Spark作业的JSON。
SQL:选择SQL后,可在作业配置区域输入SQL语句。
任务名称
任务在Spark中的名称。若未定义,则默认定义为任务节点的名称(ADB Spark节点)。
作业配置
-
根据您选择的任务类型,在该区域编写JSON或SQL语句。配置Batch和SQL类型作业的具体操作,请参见Spark离线应用开发和Spark SQL应用开发。
完成上述配置后,单击保存。
单击试运行、指定时间运行或指定时间范围运行。
如果执行日志的最后一行出现
status SUCCEEDED
,表明任务运行成功。如果执行日志的最后一行出现
status FAILED
,表明任务运行失败。说明如果运行失败,在执行日志中查看执行失败的节点和原因,修改配置后重新尝试。
配置调度周期。
在任务类型列表页的下方,单击任务流信息页签。
在调度配置区域,打开开启调度开关,配置调度。具体配置,请参见任务编排概述。
可选:发布或下线任务流。具体操作,请参见发布或下线任务流。
其他操作
您可在任务执行完成后,单击页面右上方的前往运维,进入运维中心查看任务流的详细信息(包含创建时间、创建人或责任人、是否发布等信息)以及任务的执行状态(成功、失败、执行中)、起止时间,同时您也可以在该页面进行暂停、重跑等运维操作。