本文介绍如何在数据湖分析控制台创建和执行Spark作业。
准备事项
- 您需要在提交作业之前先创建虚拟集群,具体请参考创建虚拟集群。
说明 创建虚拟集群时注意选择引擎类型为Spark。
- 如果您是子账号登录,需要配置子账号提交作业的权限,具体请参考RAM子账号权限配置。由于SparkPi不需要访问外部数据源,您只需要配置文档中的前两个步骤:”DLA子账号关联RAM子账号“和”为子账号授予访问DLA的权限“。
操作步骤
- 登录Data Lake Analytics管理控制台。
- 页面左上角,选择DLA所在地域。
- 单击左侧导航栏中的Serverless Spark -> 作业管理。
- 在作业编辑页面,单击创建作业。
- 在创建作业页面,按照页面提示进行参数配置。
参数名称 参数说明 文件名称 设置文件夹或者文件的名字。 文件类型 可以设置为文件或者文件夹。 父级 设置文件或者文件夹的上层目录。 - 作业列表相当于根目录,所有的作业都在作业列表下创建。
- 您可以在作业列表下创建文件夹,然后在文件夹下创建作业;也可以直接在作业列表根目录下创建作业。
- 完成上述参数配置后,单击确定创建Spark作业。
- 创建Spark作业后,您可以根据作业配置指南编写Spark任务。
- Spark任务编写完成后,您可以进行以下操作:
- 单击保存,保存Spark任务,便于后续复用任务。
- 单击执行,执行Spark任务,状态栏中实时显示任务的执行状态。
任务ID Spark任务ID,由系统生成。 状态 Spark任务的运行状态。 - STARTING:任务正在提交。
- RUNNING:任务运行中。
- SUCCESS:Spark作业执行成功。
- DEAD:任务出错,可通过查看日志进行排错处理。
- KILLED:任务被主动终止。
任务名称 创建Spark任务时设置的任务名称,由name参数指定。 提交时间 当前Spark任务的提交时间。 启动时间 当前Spark任务的启动时间。 更新时间 当前Spark任务状态发生变化时的更新时间。 持续时间 运行当前Spark任务所花费的时间。 操作 操作中有4个参数,分别为: - 日志,当前任务的日志,只获取最新的300行日志。
- SparkUI,当前任务的Spark Job UI 地址,如果Token过期需要单击刷新获取最新的地址。
- 详情,当前任务提交时填写的JSON脚本。
- kill,终止当前的任务。
DLA为您提供了一个名为SparkPi的示例任务,单击示例右侧作业编辑框显示SparkPi,单击执行执行SparkPi示例。
附录
- 数据湖分析提供了开发Spark作业的Demo,可以参考开源项目:Aliyun DLA Demo。用户可以直接clone下来,执行mvn打包。建议用户参考本项目进行pom配置和开发。
- 使用DMS进行Spark作业编排和任务周期调度,可以参考文档DMS任务编排调度Spark任务训练机器学习模型。
在文档使用中是否遇到以下问题
更多建议
匿名提交