配置Lindorm Spark节点

任务编排的Lindorm Spark节点可以通过Lindorm计算引擎高效地完成分布式计算任务,满足用户在数据生产、交互式分析、机器学习和图计算等场景中的计算需求,同时可以方便地读取Lindorm宽表引擎数据,与OSS上的数据进行联合分析。

前提条件

  • 您使用的是阿里云账号或拥有AliyunLindormFullAccess权限策略的RAM用户。

  • Lindorm实例已开通计算引擎。具体操作,请参见开通与变配

    说明

    建议您在Lindorm管理控制台开通Lindorm实例的History Server功能,方便查看任务历史运行日志。

背景信息

Lindorm计算引擎是一款基于云原生多模数据库Lindorm核心能力实现的数据库内高性能、低成本、稳定可靠的分布式计算服务。关于Lindorm计算引擎的更多信息,请参见引擎简介

费用说明

Lindorm实例的计算引擎按照计算资源实际使用量收费,不使用不计费。具体信息,请参见计费方式

操作步骤

  1. 登录数据管理DMS 5.0
  2. 在顶部菜单栏中,选择集成与开发 > 数据开发 > 任务编排

    说明

    若您使用的是极简模式的控制台,请单击控制台左上角的2023-01-28_15-57-17.png图标,选择全部功能 > 集成与开发 > 数据开发 > 任务编排

  3. 单击目标任务流名称,进入任务流详情页面。

    说明

    如果您需要新增任务流,请参见新增任务流

  4. 在画布左侧任务类型列表中,拖拽Lindorm Spark节点到画布空白区域。

  5. 双击Lindorm Spark节点。

  6. 基础配置区域,配置节点基础信息。

    配置项

    说明

    地域

    选择Lindorm实例所处地域。

    Lindorm实例

    选择Lindorm实例。

    任务类型

    选择任务类型:

    • JAR

    • Python

    • SQL

  7. 作业配置区域,配置JSON请求参数。

    • 作业的基本参数配置:

      参数

      说明

      示例值

      mainResource

      作业文件(.jar、.py、.sql)在OSS上的存储路径。

      oss://bucket/path/spark-examples.jar

      mainClass

      .jar作业文件中main函数的入口类路径。

      说明

      如果任务类型为Python或SQL,不需要配置该参数。

      com.aliyun.ldspark.SparkPi

      args(非必填)

      传入mainClass参数。

      说明

      如果任务类型为SQL,不需要配置该参数。

      ["arg1", "arg2.1, arg2.2"]

      configs

      作业的其他相关配置。

      {"spark.hadoop.fs.oss.impl":"org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem"}

    • configs参数配置:

      参数

      说明

      示例值

      spark.hadoop.fs.oss.endpoint

      作业文件所在OSS的Endpoint。

      说明

      查看OSS的Endpoint,请参见访问域名和数据中心

      oss-cn-beijing-internal.aliyuncs.com

      spark.hadoop.fs.oss.accessKeyId

      云账号AccessKey中用于标识用户的AccessKey ID。

      说明

      获取AccessKey的方法,请参见创建AccessKey

      LTAI5tLJePBPPr8ZGDu8****

      spark.hadoop.fs.oss.accessKeySecret

      云账号AccessKey中用于验证用户的密钥AccessKey Secret。

      说明

      获取AccessKey的方法,请参见创建AccessKey

      jHCMeBseYbTTq92xYikcFRIQZ2****

      spark.hadoop.fs.oss.impl

      访问OSS的类。

      固定值:org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem

      spark.sql.shuffle.partitions

      设置Spark SQL引擎的Shuffle默认分区数。

      20

    • 如果任务类型为Python,需要在configs参数中配置Python作业环境参数:

      参数

      说明

      示例值

      spark.archives

      运行环境路径。

      oss://OSS_BUCKET/pyspark_conda_env.tar.gz

      spark.submit.pyFiles

      python文件路径。

      oss://OSS_BUCKET/your_project.zip

      示例:

      {
      "spark.archives":"oss://OSS_BUCKET/pyspark_conda_env.tar.gz",
      "spark.submit.pyFiles":"oss://OSS_BUCKET/your_project.zip"
      }
    • (可选)访问Lindorm实例的宽表引擎,需要在configs参数中配置以下参数:

      参数

      说明

      示例值

      spark.sql.catalog.Lindorm_table

      访问Lindorm宽表引擎的实现类。

      说明

      如果任务类型为SQL,不需要配置该参数。

      固定值:com.alibaba.Lindorm.ldspark.datasources.v2.LindormCatalog

      spark.sql.catalog.Lindorm_table.url

      访问Lindorm宽表引擎的专有网络访问地址。

      说明

      如果任务类型为SQL,不需要配置该参数。

      ld-bp1z3506imz2f****-proxy-Lindorm.Lindorm.rds.aliyuncs.com:30020

      spark.sql.catalog.Lindorm_table.username

      访问Lindorm宽表引擎的用户名。

      默认用户名为root。

      spark.sql.catalog.Lindorm_table.password

      访问Lindorm宽表引擎的密码。

      默认密码为root。

      示例:

      {
      "spark.sql.catalog.Lindorm_table.username": "my_user",
      "spark.sql.catalog.Lindorm_table.password": "my_password",
      }
    说明
  8. 在页面上方,单击试运行

    • 如果执行日志的最后一行出现status SUCCEEDED,表明任务试运行成功。

    • 如果执行日志的最后一行出现status FAILED,表明任务试运行失败。

      单击运行日志,查看执行失败原因,修改配置后重新尝试。

    说明

    运行任务后,您可以在Lindorm管理控制台中查看计算引擎作业运行日志。具体操作,请参见查看作业运行状态