EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等开源大数据开发使用体验。覆盖了大数据处理ETL、交互式数据分析、机器学习和实时计算等多种应用场景。

EMR Studio核心优势

优势 描述
兼容开源 EMR Studio提供深度优化的开源组件使用体验,100%兼容开源大数据生态。您无需修改任务代码,即可平滑迁移上云。通过EMR Studio数据开发工作台,您可以在开源组件原生UI的基础上无缝衔接开发环节和生产调度环节。Studio
简化运维 EMR Studio提供开箱即用的大数据开发环境,可以快速响应业务需求。您可以将EMR Studio一键关联至EMR集群(EMR on ECS、EMR on ACK)提交作业,并可以在不关闭Notebook的情况下切换计算集群。EMR Studio自动适配Hive、Spark、Flink、Presto和Impala等多个计算引擎并协同工作。EMR Studio提供了统一的用户管理和认证能力,您可以控制用户访问数据开发控制台。EMR Studio已与阿里云云监控服务集成,您可以在云监控中灵活配置任务调度监控,保障开发环境稳定。
节省成本 您可以根据任务负载灵活变更EMR Studio的硬件资源,压缩调度资源成本。EMR Studio支持使用集群模板功能,您可以设置EMR Studio动态拉起EMR计算集群运行临时任务,当任务结束时自动释放计算集群,能够极大降低计算资源成本。集群模板功能详情,请参见创建集群模板
便捷集成 EMR Studio采用半托管的部署形态,您可以直接登录集群灵活操作和部署软件,可以将EMR Studio集成至已有系统。EMR Studio作为一款云上产品,支持与数据湖构建(DLF)和对象存储(OSS)等云上产品对接,构建云原生大数据产品架构。您可以在创建EMR Studio时指定OSS bucket路径,EMR Studio将自动备份作业代码和作业日志,并可以通过该路径提交Airflow DAG脚本。