任务编排的Lindorm Spark节点可以通过Lindorm计算引擎高效地完成分布式计算任务,满足用户在数据生产、交互式分析、机器学习和图计算等场景中的计算需求,同时可以方便地读取Lindorm宽表引擎数据,与OSS上的数据进行联合分析。

前提条件

  • 您使用的是阿里云账号或拥有AliyunLindormFullAccess权限策略的RAM用户。
  • Lindorm实例已开通计算引擎。具体操作,请参见开通与变配
    说明 建议您在Lindorm管理控制台开通Lindorm实例的History Server功能,方便查看任务历史运行日志。

背景信息

Lindorm计算引擎是一款基于云原生多模数据库Lindorm核心能力实现的数据库内高性能、低成本、稳定可靠的分布式计算服务。关于Lindorm计算引擎的更多信息,请参见引擎简介

费用说明

Lindorm实例的计算引擎按照计算资源实际使用量收费,不使用不计费。具体信息,请参见计费方式

操作步骤

  1. 登录数据管理DMS 5.0
  2. 在顶部菜单栏中,选择集成与开发(DTS) > 数据开发 > 任务编排
  3. 单击目标任务流名称,进入任务流详情页面。
    说明 如果您需要新增任务流,请参见新增任务流
  4. 在画布左侧任务类型列表中,拖拽Lindorm Spark节点到画布空白区域。
  5. 双击Lindorm Spark节点。
  6. 基础配置区域,配置节点基础信息。
    配置项 说明
    地域 选择Lindorm实例所处地域。
    Lindorm实例 选择Lindorm实例。
    任务类型 选择任务类型:
    • JAR
    • Python
    • SQL
  7. 作业配置区域,配置JSON请求参数。
    • 作业的基本参数配置:
      参数 说明 示例值
      mainResource 作业文件(.jar、.py、.sql)在OSS上的存储路径。 oss://bucket/path/spark-examples.jar
      mainClass .jar作业文件中main函数的入口类路径。
      说明 如果任务类型为Python或SQL,不需要配置该参数。
      com.aliyun.ldspark.SparkPi
      args(非必填) 传入mainClass参数。
      说明 如果任务类型为SQL,不需要配置该参数。
      ["arg1", "arg2.1, arg2.2"]
      configs 作业的其他相关配置。 {"spark.hadoop.fs.oss.impl":"org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem"}
    • configs参数配置:
      参数 说明 示例值
      spark.hadoop.fs.oss.endpoint 作业文件所在OSS的Endpoint。
      说明 查看OSS的Endpoint,请参见访问域名和数据中心
      oss-cn-beijing-internal.aliyuncs.com
      spark.hadoop.fs.oss.accessKeyId 云账号AccessKey中用于标识用户的AccessKey ID。
      说明 获取AccessKey的方法,请参见获取AccessKey
      LTAI5tLJePBPPr8ZGDu8****
      spark.hadoop.fs.oss.accessKeySecret 云账号AccessKey中用于验证用户的密钥AccessKey Secret。
      说明 获取AccessKey的方法,请参见获取AccessKey
      jHCMeBseYbTTq92xYikcFRIQZ2****
      spark.hadoop.fs.oss.impl 访问OSS的类。 固定值:org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem
      spark.sql.shuffle.partitions 设置Spark SQL引擎的Shuffle默认分区数。 20
    • 如果任务类型为Python,需要在configs参数中配置Python作业环境参数:
      参数 说明 示例值
      spark.archives 运行环境路径。 oss://OSS_BUCKET/pyspark_conda_env.tar.gz
      spark.submit.pyFiles python文件路径。 oss://OSS_BUCKET/your_project.zip
      示例:
      {
      "spark.archives":"oss://OSS_BUCKET/pyspark_conda_env.tar.gz",
      "spark.submit.pyFiles":"oss://OSS_BUCKET/your_project.zip"
      }
    • (可选)访问Lindorm实例的宽表引擎,需要在configs参数中配置以下参数:
      参数 说明 示例值
      spark.sql.catalog.Lindorm_table 访问Lindorm宽表引擎的实现类。
      说明 如果任务类型为SQL,不需要配置该参数。
      固定值:com.alibaba.Lindorm.ldspark.datasources.v2.LindormCatalog
      spark.sql.catalog.Lindorm_table.url 访问Lindorm宽表引擎的专有网络访问地址。
      说明 如果任务类型为SQL,不需要配置该参数。
      ld-bp1z3506imz2f****-proxy-Lindorm.Lindorm.rds.aliyuncs.com:30020
      spark.sql.catalog.Lindorm_table.username 访问Lindorm宽表引擎的用户名。 默认用户名为root。
      spark.sql.catalog.Lindorm_table.password 访问Lindorm宽表引擎的密码。 默认密码为root。
      示例:
      {
      "spark.sql.catalog.Lindorm_table.username": "my_user",
      "spark.sql.catalog.Lindorm_table.password": "my_password",
      }
    说明
  8. 在页面上方,单击试运行
    • 如果执行日志的最后一行出现status SUCCEEDED,表明任务试运行成功。
    • 如果执行日志的最后一行出现status FAILED,表明任务试运行失败。

      单击运行日志,查看执行失败原因,修改配置后重新尝试。

    说明 运行任务后,您可以在Lindorm管理控制台中查看计算引擎作业运行日志。具体操作,请参见查看计算引擎作业运行日志