全部产品
大数据开发套件

示例说明

更新时间:2017-09-05 19:56:26   分享:   

示例背景

本示例主要介绍如何通过数加 MaxCompute + 大数据开发套件 两个产品实现简单的网站数据统计分析。

您通过本示例可快速上手 MaxCompute 进行大数据开发,简单了解在 MaxCompute 做大数据 ETL 的过程,同时了解一些 MaxCompute SQL 和常用数据库 SQL 的基本区别。

适用人群

MaxCompute 初学者,特别是无大数据开发基础但有数据库使用基础者。

示例介绍

房产网上经常会看到一些排行榜,如最近 30 日签约的楼盘排行、签约金额的楼盘排行等,本示例将简单介绍通过对二手房产数据信息表(house_basic_info)的统计分析,得出每个城市二手房均价 Top 5 的楼盘,并且给出该楼盘所在城区,最后让这些数据能够在房产网上呈现。

需求分析

核心目标

统计分析出每个城市二手房均价 Top 5 的楼盘,并且给出该楼盘所在城区,即(城市、楼盘、均价、排名和所在城区)。

数据现状

  • 信息表中,每个楼盘可能有多条记录,多个均价信息,本示例只针对整个楼盘的均价求平均。

  • 信息表中,house_region 中包含城区、街道地址信息,需要拆分出城区信息。

  • 每天数据都有变化,每个数据日期的数据都是全量数据。

操作步骤

步骤1:准备数据

步骤2:配置 RDS 数据源

步骤3:配置数据同步任务

步骤4:执行数据导入任务

步骤5:数据统计分析

步骤6:数据回流

数据回流是指:将结果表回流到网站业务系统,以便网站直接调用数据进行前端显示。

总结

通过后续示例中对数据统计分析的实现,您可以了解到以下内容:

  • 大数据开发套件是架构在 MaxCompute 的 web 工具,提供界面操作以及数据集成和任务调度功能,而 MaxCompute 提供计算和存储服务。

  • MaxCompute SQL 作业提交后会有几十秒到数分钟不等的排队调度,所以适合处理跑批作业,一次作业批量处理海量数据,不适合直接对接需要每秒处理几千至数万笔事务的前台业务系统。

  • MaxCompute SQL 采用的是类似于 SQL 的语法,可以看作是标准 SQL 的子集,但不能因此简单的把 MaxCompute 等价成一个数据库,它在很多方面并不具备数据库的特征,如事务、主键约束、索引等都不支持,更多差异请参见 与其他 SQL 的语法差异

  • 大数据开发套件中的数据同步可以实现跨 region 的 RDS 与 MaxCompute 的数据互传,无需特殊处理。

更多的高级功能组件(MapReduce、Graph 等),请参见 MaxCompute 相关文档

本文导读目录
本文导读目录
以上内容是否对您有帮助?