全部产品
大数据开发套件

什么是大数据开发套件

更新时间:2017-06-07 13:26:11   分享:   

什么是大数据开发套件

大数据开发套件(Data IDE) 是阿里云数加重要的Paas平台产品,是”DataWorks”中最重要的核心组件。提供全面托管的工作流服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。

大数据开发套件(Data IDE) 基于MaxCompute作为核心的计算、存储引擎,提供了海量数据的离线加工分析、数据挖掘的能力。您可以参见 MaxCompute 简介来对其进行深入了解 。

“DataWorks”是阿里云推出的大数据领域Pass平台,是一站式的DW能力平台,提供数据集成、数据开发、数据管理、数据治理全方面的产品能力。

使用大数据开发套件(Data IDE),可对数据进行数据传输、数据转换等相关操作,从不同的数据存储引入数据,对数据进行转化处理,最后将数据提取到其他数据系统。完成整个数据的分析流程,如下图所示:

阿里云大数据开发套件架构图

功能与特点

1)全面托管的调度

提供强大的调度能力,支持按照时间、依赖关系的任务触发机制,支持每日千万级别的任务按照DAG关系准确、准时运行。支持分钟、小时、天、周、月多种调度周期配置。

完全托管的服务,无需关心调度服务器资源问题。租户之间提供隔离,保证不同租户之间的任务不会相互影响。

2 ) 支持多种任务类型

支持 数据同步、SHELL、ODPS SQL、ODPS MR、机器学习 等多种任务类型,通过任务之间的相互依赖完成复杂的数据分析处理。

  • 数据转化能力依托MaxCompute强大的能力,保证了大数据的分析处理性能。更多内容参考:MaxCompute 简介

  • 数据同步能力依托DataWorks·数据集成强力支撑,支持多达20+数据源,提供稳定高效的数据传输。更多内容参考:数据集成简介

  • 机器学习能力依托机器学习PAI强力支撑。更多内容参考:机器学习简介

3 ) 可视化开发

提供可视化的代码开发、工作流设计器 页面。无需搭配任何开发工具,简单的拖拽和开发就可以完成复杂的数据分析任务。只要有浏览器有网络,就可以随时随地进行开发工作。

4 ) 监控告警

运维中心提供可视化的任务监控管理工具,支持以 DAG 图的形式展示任务运行时的全局情况。

可方便的配置短信报警,任务发生错误及时通知相关同学。保证业务发展。

数据开发流程介绍

通常情况下,数据开发需经如下开发流程来完成:

总体开发流程图

从上图可以看出,数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享,其中虚线框内的开发流程都可基于阿里云大数据平台来完成 。

简要说明如下:

1)数据产生

业务系统每天会产生大量结构化的数据,这些数据都存储在业务系统所对应的数据库中,包括 MySQL、Oracle、RDS 等类型。

2)数据收集与存储

若想利用 MaxCompute 的海量数据存储与处理能力来分析这些已有的数据,首先需要将不同业务系统的数据同步至 MaxCompute 中 。

DataWorks提供数据集成服务,可支持多种数据源类型将业务系统数据按照预设的调度周期同步到 MaxCompute 。

3)数据分析与处理

随之可对 MaxCompute 上的数据进行加工(ODPS_SQL、OPEN_MR)、分析与挖掘(数据分析、数据挖掘)等处理,从而发现其价值 。

4)数据提取

分析与处理后的结果数据,需同步导出至业务系统,以供业务人员使用其分析的价值 。

5)数据展现和分享

最后可通过报表、地理信息系统等多种展现方式来展示与分享大数据分析、处理后的成果 。

约束与限制

  • 仅支持Chrome浏览器54以上版本
  • 目前无法支持SQL运行在 阿里云云数据库、阿里云分析型数据库 等产品,仅支持MaxCompute。
本文导读目录
本文导读目录
以上内容是否对您有帮助?