本模块为您介绍DataWorks的设计思路和核心功能,帮助您深入了解阿里云DataWorks。

教程概述

教程时长:2小时,采用在线学习的方式。

教程对象:面向Java工程师、产品运营等DataWorks所有的新老用户。只需要熟悉标准SQL,无需对数据仓库和MaxCompute的原理过多了解,即可快速掌握DataWorks的基本技能。建议您进一步学习DataWorks教程,深入了解DataWorks的基本概念及功能,详情请参见什么是DataWorks

教程目标:以常见的真实的海量日志数据分析任务为教程背景,争取在完成教程后,您对DataWorks的主要功能有所了解。按照教程演示内容,独立通过MaxCompute计算引擎完成数据采集 、数据开发和任务运维等数据岗位常见的任务。

开发流程

Workshop教程涉及的具体开发流程如下:
  1. 环境准备:准备操作过程中需要的MaxCompute、DataWorks等环境。详情请参见准备环境
  2. 数据采集:学习如何从不同的数据源同步数据至MaxCompute中、如何快速触发任务运行、如何查看任务日志等。详情请参见采集数据
  3. 数据加工:学习如何运行数据流程图、如何新建数据表、如何新建数据流程任务节点、如何配置任务的周期调度属性。详情请参见加工数据
  4. 数据质量监控:学习如何给任务配置数据质量的监控规则,以保证任务运行的质量问题。详情请参见配置数据质量监控
  5. 数据可视化展现:学习如何通过Quick BI创建网站用户分析画像的仪表板,实现所需数据的可视化展现。详情请参见数据可视化展现

DataWorks简介

DataWorks是一站式大数据研发平台,上层有机融合数据集成、数据建模、数据开发、运维监控、数据管理、数据安全和数据质量等产品功能,同时与算法平台PAI打通,完善了从大数据开发到数据挖掘、机器学习的完整链路。

学习答疑

如果您在学习过程中遇到问题,请申请加入钉钉群进行咨询。