本文为您介绍如何通过DataWorks加工采集至MaxCompute的数据,并获取清洗后的数据。
前提条件
新建表
设计业务流程
业务流程的新建及依赖关系的配置请参见新建业务流程。
进入业务流程开发面板,并向面板中拖入两个ODPS SQL节点,依次命名为数据清洗和数据汇聚,并配置如下图所示的依赖关系。

配置ODPS SQL节点
- 配置数据清洗节点。
- 双击数据清洗节点,进入节点配置页面。
- 编写处理逻辑。SQL逻辑如下所示。
INSERT OVERWRITE TABLE clean_trend_data PARTITION(dt=${bdp.system.bizdate}) SELECT uid ,trend FROM trend_data WHERE trend IS NOT NULL AND uid != 0 AND dt = ${bdp.system.bizdate} ; INSERT OVERWRITE TABLE clean_steal_flag_data PARTITION(ds=${bdp.system.bizdate}) SELECT uid ,flag FROM steal_flag_data WHERE uid != 0 AND ds = ${bdp.system.bizdate} ; INSERT OVERWRITE TABLE clean_indicators_data PARTITION(ds=${bdp.system.bizdate}) SELECT uid ,xiansun,warnindicator FROM indicators_data WHERE uid != 0 AND ds = ${bdp.system.bizdate} ;
- 单击工具栏中的
图标。
- 配置数据汇聚节点。
- 双击数据汇聚节点,进入节点配置页面。
- 编写处理逻辑。SQL逻辑如下所示。
INSERT OVERWRITE TABLE data4ml PARTITION (ds=${bdp.system.bizdate}) SELECT a.uid ,trend ,xiansun ,warnindicator ,flag FROM ( SELECT uid,trend FROM clean_trend_data where dt=${bdp.system.bizdate} )a FULL OUTER JOIN ( SELECT uid,xiansun,warnindicator FROM clean_indicators_data where ds=${bdp.system.bizdate} )b ON a.uid = b.uid FULL OUTER JOIN ( SELECT uid,flag FROM clean_steal_flag_data where ds=${bdp.system.bizdate} )c ON b.uid = c.uid ;
- 单击工具栏中的
图标。
提交业务流程
- 打开业务流程配置面板,单击工具栏中的
图标。
- 选择提交对话框中需要提交的节点,输入备注,并选中忽略输入输出不一致的告警。
- 单击提交,待显示提交成功即可。
运行业务流程
发布业务流程
提交业务流程后,表示任务已进入开发环境。由于开发环境的任务不会自动调度,您需要将配置完成的任务发布至生产环境。
说明 将任务发布至生产环境前,您需要对代码进行测试,确保其正确性。
- 打开业务流程配置面板,单击工具栏中的
图标。
- 在创建发布包页面,选中待发布的任务,单击添加到待发布。
- 进入右上角的待发布列表,单击全部打包发布。
- 在发布包列表页面查看已发布的内容。
在文档使用中是否遇到以下问题
更多建议
匿名提交