Data Development集群是E-MapReduce推出的一站式开源大数据开发平台,提供端到端的大数据开发体验。

说明 Data Development集群正在公测阶段,如果您需要体验,请提交工单

背景信息

兼容开源组件

Data Development集群为半托管的集群形态,提供开源软件Apache Zeppelin和Apache Airflow,并在开源的基础上优化了组件性能,您可以登录到集群环境中修改服务配置或部署您的服务。

支持连接多个集群

您无需为每个EMR计算集群(Hadoop集群、Dataflow集群或Data Science集群)创建一个Data Development集群,因为一个Data Development集群可以连接多个EMR计算集群。通过EMR自带的数据开发工作台提交作业时,您可以切换计算集群,以提交作业到不同的计算集群上运行。cluster

适配多个计算引擎

自动适配Hive、Spark、Flink、Presto、Impala和Shell多个计算引擎,无需复杂配置,多个计算引擎间协同工作。job

通过界面化的方式进行交互式开发和作业调度

EMR提供数据开发中心模块,您可以通过界面化的方式进行交互式开发和作业调度。

  • 交互式开发,高效便捷。
    Data Development集群提供独立的数据开发工作台,并在其上集成了优化过的Zeppelin UI。您无需任何配置,就可以在工作台中展开交互式开发,适用于大数据工程师和数据分析师。data
  • 集成开源Airflow,可以无缝衔接开发环节和生产调度环节。
    Data Development集群的数据开发工作台也集成了Airflow UI。您可以在数据开发工作台中使用Notebook做交互式开发,验证您的作业,然后在Airflow里调度您的Notebook。此方式优点如下:
    • 利用交互式开发模式可以快速验证作业的正确性。
    • 最大程度得保证开发环境和生产环境的一致性,防止由于开发阶段和生产阶段环境不一致导致的问题。
    Airflow UI

关联OSS服务更方便

您可以通过在OSS上传DAG脚本和查看作业日志,以便于作业和日志的备份和迁移,即使集群销毁也不会丢失作业代码和日志。