Lindorm计算引擎兼容CDH(Cloudera's Distribution Including Apache Hadoop),支持通过大数据开发治理平台DataWorks开发、管理、调度、运维分布式计算作业。作业类型包括交互式SQL查询、SQL作业、JAR作业、Python作业等。本文介绍如何通过DataWorks对Lindorm计算引擎的各类作业进行开发和调度运维。
前提条件
- 已在DataWorks中创建工作空间。 
- 已购买DataWorks独享调度资源组并绑定归属空间。具体操作,请参见步骤一:购买资源组和步骤二:绑定归属工作空间。 
操作流程
绑定引擎
通过以下步骤,完成Lindorm计算引擎到DataWorks工作空间的绑定及相关CDH配置。
- 进入工作空间管理中心。 
- 在左侧导航栏,选择开源集群>CDH集群。 
- 在CDH集群配置页面,单击立即新增。 
- 在新增CDH集群配置对话框中,配置以下参数。 - 参数 - 说明 - CDH集群版本 - CDH集群版本号。请选择CDH 6.3.2。 - 版本选择(Hive) - Hive的版本号。请选择2.1.1。 - HiveServer2 - HiveServer2地址。请填写Lindorm计算引擎的JDBC地址。连接地址的获取方式,请参见查看连接地址。 - Metastore - Hive Metastore地址。请填写Lindorm计算引擎的Hive Metastore地址。连接地址的获取方式,请参见查看连接地址。 - 配置文件:core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml - 配置文件。全部上传空文件即可。 - 添加工作空间 - 添加指定工作空间。请选择当前工作空间。 - 认证类型 - 请选择无认证方式。 
- 将CDH集群绑定至工作空间。 
- 在新增CDH实例对话框中,配置以下参数。 - 参数 - 说明 - 访问模式 - 请选择快捷模式。 - 选择集群 - 请选择已创建的CDH集群。 - 认证类型 - 请选择无认证方式。 - 账号 - 请填写 - lindorm。- 独享调度资源组 - 请选择已创建的调度资源组。 - 测试连通性 - 测试独享调度资源组到Lindorm计算引擎的网络连通性。请单击测试连通性按钮。 
- 单击确定。 
临时查询
通过临时查询可以排查SQL语句是否正确。
任务流编排(JDBC作业)
通过以下步骤可以完成开发任务的编排。
发布周期性作业(Python作业或JAR作业)
- 拖拽Shell节点至业务流程面板。 
- 双击调度节点,进入SQL编辑页面。 
- 在SQL编辑页面输入以下代码完成作业配置。 - Python作业模板 - curl --location --request POST http://ld-bp1z3506imz2f****-proxy-ldps-pub.lindorm.aliyuncs.com:10099/api/v1/lindorm/jobs/xxxxxx --header "Content-Type:application/json" --data '{ "owner":"root", "name":"LindormSQL", "mainResourceKind":"jar", "mainResource":"oss://path/launcher.py", "mainArgs":["arg1","arg2"], "conf":{ "spark.hadoop.fs.oss.endpoint":"", "spark.hadoop.fs.oss.accessKeyId":"", "spark.hadoop.fs.oss.accessKeySecret":"", "spark.hadoop.fs.oss.impl":"org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem", "spark.submit.pyFiles" : "oss://path/your_project.zip", "spark.archives" : "oss://path/pyspark_conda_env.tar.gz", "spark.sql.shuffle.partitions" : "20" } }'
- JAR作业模板 - curl --location --request POST http://ld-bp1z3506imz2f****-proxy-ldps-pub.lindorm.aliyuncs.com:10099/api/v1/lindorm/jobs/xxxxxx --header "Content-Type:application/json" --data '{ "owner":"root", "name":"LindormSQL", "mainResourceKind":"jar", "mainClass":"your_project_main_class", "mainResource":"oss://path/your_project.jar", "mainArgs":[], "conf":{ "spark.hadoop.fs.oss.endpoint":"", "spark.hadoop.fs.oss.accessKeyId":"", "spark.hadoop.fs.oss.accessKeySecret":"", "spark.hadoop.fs.oss.impl":"org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem", } }'- 其中, - http://ld-bp1z3506imz2f****-proxy-ldps-pub.lindorm.aliyuncs.com:10099为控制台获取的计算引擎的JAR地址。如何获取,请参见查看计算引擎连接地址。其他参数说明,请参见Python作业参数说明和JRA作业参数说明。
 
- 在右侧导航栏,单击属性,并完成资源组的配置。 
- 提交业务。 
数据地图
通过以下步骤,可以将Lindorm计算引擎中的表同步至DataWorks,从而方便地管理数据表。
