Lindorm计算引擎兼容CDH(Cloudera's Distribution Including Apache Hadoop),支持通过大数据开发治理平台DataWorks开发、管理、调度、运维分布式计算作业。作业类型包括交互式SQL查询、SQL作业、JAR作业、Python作业等。本文介绍如何通过DataWorks对Lindorm计算引擎的各类作业进行开发和调度运维。
前提条件
已开通Lindorm计算引擎。如何开通,请参见开通与变配。
已开通DataWorks服务。如何开通,请参见开通DataWorks服务。
已在DataWorks中创建工作空间。如何创建,请参见创建工作空间。
操作流程
绑定引擎
通过以下步骤,完成Lindorm计算引擎到DataWorks工作空间的绑定及相关CDH配置。
进入工作空间管理中心。如何进入,请参见进入管理中心。
在左侧导航栏,选择开源集群>CDH集群。
在CDH集群配置页面,单击立即新增。
在新增CDH集群配置对话框中,配置以下参数。
参数
说明
CDH集群版本
CDH集群版本号。请选择CDH 6.3.2。
版本选择(Hive)
Hive的版本号。请选择2.1.1。
HiveServer2
HiveServer2地址。请填写Lindorm计算引擎的JDBC地址。连接地址的获取方式,请参见查看计算引擎连接地址。
Metastore
Hive Metastore地址。请填写Lindorm计算引擎的Hive Metastore地址。连接地址的获取方式,请参见查看计算引擎连接地址。
配置文件:core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml
配置文件。全部上传空文件即可。
添加工作空间
添加指定工作空间。请选择当前工作空间。
认证类型
请选择无认证方式。
将CDH集群绑定至工作空间。如何绑定,请参见绑定工作空间。
在新增CDH实例对话框中,配置以下参数。
参数
说明
访问模式
请选择快捷模式。
选择集群
请选择已创建的CDH集群。
认证类型
请选择无认证方式。
账号
请填写
lindorm
。独享调度资源组
请选择已创建的调度资源组。
测试连通性
测试独享调度资源组到Lindorm计算引擎的网络连通性。请单击测试连通性按钮。
单击确定。
临时查询
通过临时查询可以排查SQL语句是否正确。
任务流编排(JDBC作业)
通过以下步骤可以完成开发任务的编排。
发布周期性作业(Python作业或JAR作业)
创建周期业务流程。如何创建,请参见创建周期业务流程。
拖拽Shell节点至业务流程面板。
双击调度节点,进入SQL编辑页面。
在SQL编辑页面输入以下代码完成作业配置。
Python作业模板
curl --location --request POST http://ld-bp1z3506imz2f****-proxy-ldps-pub.lindorm.aliyuncs.com:10099/api/v1/lindorm/jobs/xxxxxx --header "Content-Type:application/json" --data '{ "owner":"root", "name":"LindormSQL", "mainResourceKind":"jar", "mainResource":"oss://path/launcher.py", "mainArgs":["arg1","arg2"], "conf":{ "spark.hadoop.fs.oss.endpoint":"", "spark.hadoop.fs.oss.accessKeyId":"", "spark.hadoop.fs.oss.accessKeySecret":"", "spark.hadoop.fs.oss.impl":"org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem", "spark.submit.pyFiles" : "oss://path/your_project.zip", "spark.archives" : "oss://path/pyspark_conda_env.tar.gz", "spark.sql.shuffle.partitions" : "20" } }'
JAR作业模板
curl --location --request POST http://ld-bp1z3506imz2f****-proxy-ldps-pub.lindorm.aliyuncs.com:10099/api/v1/lindorm/jobs/xxxxxx --header "Content-Type:application/json" --data '{ "owner":"root", "name":"LindormSQL", "mainResourceKind":"jar", "mainClass":"your_project_main_class", "mainResource":"oss://path/your_project.jar", "mainArgs":[], "conf":{ "spark.hadoop.fs.oss.endpoint":"", "spark.hadoop.fs.oss.accessKeyId":"", "spark.hadoop.fs.oss.accessKeySecret":"", "spark.hadoop.fs.oss.impl":"org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem", } }'
其中,
http://ld-bp1z3506imz2f****-proxy-ldps-pub.lindorm.aliyuncs.com:10099
为控制台获取的计算引擎的JAR地址。如何获取,请参见查看计算引擎连接地址。其他参数说明,请参见Python作业参数说明和JRA作业参数说明。
在右侧导航栏,单击属性,并完成资源组的配置。详细说明,请参见配置资源属性。
提交作业。如何提交,请参见提交业务流程。
发布周期性任务。如何发布,请参见发布任务。
数据地图
通过以下步骤,可以将Lindorm计算引擎中的表同步至DataWorks,从而方便地管理数据表。
数据采集。如何进行数据采集,请参见CDH Hive数据抽样采集器。
在左侧导航栏单击全部数据,触发表的检索,验证元数据是否同步成功。
说明如果您想要进一步进行数据治理,请参见数据地图。