本文介绍基于数据开发功能,快速实现常见的报表分析诉求的操作步骤。
背景信息
说明 如下最佳实践基于数仓开发(老)功能进行操作,但该功能已下线,不适用新版数仓开发功能。详细信息,请参见
【通知】下线任务编排(老)和数仓开发(老)功能。
逐步成长的企业,离不开报表的需求,常见的报表场景有:
- 向老板汇报业务的运营状况、业绩。
- 数据分析师按不同维度分析业务场景,挖掘业务的增长点。
- 业务系统统计业务的汇总情况,如电商系统统计每日营收额,物流系统统计每日运单量等。
目前,经过多年的“大数据”洗脑,以上的需求往往被分发到大数据平台上做处理。但是如今,利用DMS中的数仓开发一样可以完成。
功能优势
准备工作
- 准备分析的业务库(这里采用TPCH的样例数据举例)。
- 通过权限申请模块,申请业务库的导出权限、分析库(这里采用RDS)的变更权限,字典信息需要查询权限。
- 创建任务流tpch_report。
步骤一:同步业务库的表到分析库
以使用跨库Spark SQL任务实现同步业务库的表到分析库操作举例。跨库的更多信息,请参见跨库查询。
创建跨库Spark SQL任务
- 登录数据管理DMS 5.0。
- 在顶部菜单栏中,选择 。
- 在数仓开发首页选择目标项目空间,单击进入空间。
说明 若您还未创建项目空间,请创建 数仓项目后再进行之后的操作。
- 创建跨库Spark SQL任务。
- 通过跨库Spark SQL拷贝数据。
- 设置变量。
- 单击页面上方的预览,查看替换变量后的SQL逻辑是否正确。
步骤二:在分析库做统计分析
统计每日订单的下单客户数、订单数、订单总额。
- 创建单实例SQL任务。
- 选择分析库,创建统计表daily_orders_summary,编写统计逻辑SQL。
说明 编辑完成,系统自动保存。
联合lineitem表,统计每日订单的配件数、优惠总额、税总额。
- 在同步任务中加入lineitem表的同步的操作步骤,可参见步骤一:同步业务库的表到分析库。
- 参考daily_orders任务,完成相关统计逻辑。
步骤三:同步结果汇总表到业务库或BI库
使用跨库Spark SQL任务的操作步骤,可参见步骤一:同步业务库的表到分析库。
设置DAG图中的任务关系
将任务节点连接起来。
调度配置
- 在任务编辑页面下方,单击任务流信息。
- 在调度配置区域,打开开启调度开关,配置调度类型、生效时间等信息。
运行任务流并查看执行状态
运行任务流
在画布页面,单击上方的
试运行,即可运行任务流,测试任务的正确性。
- 如果执行日志的最后一行出现
status SUCCEEDED
,表明任务试运行成功。 - 如果执行日志的最后一行出现
status FAILED
,表明任务试运行失败,在执行日志中查看执行失败的节点和原因,修改配置后重新尝试。
查看任务的执行状态
单击画布右上方前往运维,在任务流运维页面查看。
- 在任务流运维页面上方,查看任务流的创建时间、修改时间、调度配置情况等基本信息。
- 单击运行记录页签,选择调度触发或手动触发,查看任务流运行记录。
说明
- 调度触发:通过调度或指定时间的方式运行任务流。
- 手动触发:通过手动单击试运行的方式运行任务流。
- 单击状态列前的,查看任务流运行日志。
- 在操作列中,单击执行历史,查看任务流的操作时间、操作人员和操作内容。
- 在操作列中,对不同执行状态的任务流进行终止、重跑、暂停、恢复和置成功的操作。
说明
- 对于执行成功的任务流,可以进行重跑操作。
- 对于执行失败的任务流,可以将该任务流运行记录的状态置为成功。
- 对于执行中的任务流,可以终止或暂停任务流运行。
- 单击发布列表页签,查看任务流的版本ID,发布人,发布时间等信息。