DataWorks的Lindorm Spark节点可进行Lindorm Spark任务的开发和周期性调度。本文为您介绍使用Lindorm Spark节点进行任务开发的主要流程。
背景信息
Lindorm是基于云原生架构的分布式计算服务,支持社区版计算模型、兼容Spark接口,并深度融合Lindorm存储引擎特性。能够利用底层数据存储特征及索引能力,高效完成分布式作业任务,适用于海量数据处理、交互式分析、机器学习和图计算等场景。
前提条件
(可选,RAM账号需要)进行任务开发的RAM账号已被添加至对应工作空间中,并具有开发或空间管理员(权限较大,谨慎添加)角色权限,添加成员的操作详情请参见为工作空间添加空间成员。
说明如果您使用的是主账号,则忽略该添加操作。
已创建Lindorm实例并绑定至DataWorks工作空间,详情请参见绑定Lindorm计算资源。
新建Lindorm Spark节点
新建入口参考:创建Lindorm Spark节点。
开发Lindorm Spark节点
您可根据语言类型(如Java/Scala、Python)的不同,在节点中配置引用对应的JAR包文件或.py
文件。
调试Lindorm Spark节点
配置调试属性。
您可在节点右侧调试配置中配置计算资源、Lindorm资源组及资源组信息,具体参数信息如下。
参数名称
描述
计算资源
选择您所绑定的Lindorm计算资源。
Lindorm资源组
选择您在绑定Lindorm计算资源时设置的Lindorm资源组。
资源组
选择您绑定Lindorm Spark计算资源时已通过测试连通性的资源组。
脚本参数
在配置节点内容时,通过${参数名}的方式定义变量,需要在脚本参数处配置参数名、参数值信息,任务运行时会将它动态替换为真实的取值。详情请参见调度参数支持格式。
调试运行节点。
执行节点任务,您需单击保存并运行节点任务。
后续步骤
节点调度:若项目目录下的节点需要周期性调度执行,您需要在节点右侧的调度配置中设置调度策略,配置相关的调度属性。
节点发布:若任务需要发布至生产环境执行,请单击界面
图标唤起发布流程,通过该流程将任务发布至生产环境。项目目录下的节点只有在发布至生产环境后,才会进行周期性调度。
数据地图(Lindorm表数据):您可以前往数据地图采集Lindorm的元数据信息。