Data Development集群是E-MapReduce最新推出的集群类型,主要围绕数据开发场景提供完善的开源数据开发服务,例如,使用Zeppelin Notebook进行交互式开发,使用Airflow进行作业调度。本文为您介绍如何创建Data Development集群。

使用限制

Data Development集群仅支持绑定到同一个VPC内的EMR集群,不支持跨VPC。

注意事项

数据开发节点的最小节点数是1个,节点数只影响Airflow的运行模式,不影响其他组件。如果是一个节点(例如,1个Master节点,0个Core节点),则Airflow的运行模式就是Local模式(LocalExecutor),如果是大于1个节点,则Airflow的运行模式是分布式模式(CeleroyExecutor)。

操作步骤

创建Data Development集群的配置与其他集群的配置基本一致,创建详情可以参见创建集群。差别是在基础配置页面的基础信息区域,新增了数据开发存储参数,并且必须开启挂载公网Create Data Development
说明 未开启或是关闭挂载公网,将无法使用EMR控制台访问链接与端口功能查看开源组件Web UI。

Data Development集群的数据都会存在OSS上,这样可以做到计算和存储的分离。即使您的Data Development集群销毁了,您可以通过重新创建集群来恢复原有集群的状态(包括您的Notebook以及Airflow调度的作业),并且代码和配置都不会丢失。

Data Development集群会在您所选OSS路径下创建logsdagsnotebook三个文件夹:
  • logs:在/airflow/目录下,用于存储Airflow调度的日志信息。
  • dags:在/airflow/目录下,用于存储Airflow DAG脚本。
  • notebook:在/zeppelin/目录下,用于存储Notebook信息。