用户画像分析案例加工数据-基于新版数据开发和MaxCompute计算资源_大数据开发治理平台 DataWorks(DataWorks)-阿里云帮助中心

本文为您介绍如何将同步至MaxCompute的用户信息表ods_user_info_d_odps及访问日志数据ods_raw_log_d_odps，通过DataWorks的MaxCompute节点加工得到目标用户画像数据，阅读本文后，您可以了解如何通过DataWorks+MaxCompute产品组合来计算和分析已同步的数据，完成数仓简单数据加工场景。

前提条件

开始本案例前，请先完成同步数据中的操作。

一、搭建数据加工链路

在同步数据阶段，已经成功将数据同步至MaxCompute，本阶段需要对数据进行进一步加工，以输出基本用户画像数据。

在Data Studio左侧导航栏单击，进入数据开发页面，然后在项目目录区域找到已创建好的工作流，单击进入工作流编排页。

本教程节点名称示例及作用如下：

节点类型	节点名称	节点作用
MaxCompute SQL	`dwd_log_info_di_odps`	使用内置函数、自定义函数（`getregion`）等完成原始日志`ods_raw_log_d_odps`数据拆分写入`dwd_log_info_di_odps`表多个字段。
MaxCompute SQL	`dws_user_info_all_di_odps`	对用户基本信息表（`ods_user_info_d_odps`）和初步加工后的日志数据表（`dwd_log_info_di_odps`）进行汇总，将数据写入`dws_user_info_all_di_odps`表中。
MaxCompute SQL	`ads_user_info_1d_odps`	对`dws_user_info_all_di_odps`表中数据进一步加工，将数据写入`ads_user_info_1d_odps`表，产出基本用户画像。

手动拖拽连线，配置各节点的上游节点。最终效果如下：
说明
工作流中支持通过手动连线方式设置各节点的上下游依赖关系，也支持在子节点中，使用代码解析自动识别节点上下游依赖关系。本教程采用手动连线方式，代码解析的更多信息，请参见自动解析机制。

二、注册自定义函数

为了后续数据处理任务的顺利进行，您需要注册MaxCompute自定义函数（getregion），将同步数据阶段同步至MaxCompute的日志数据结构拆解成表格。

重要

本教程已为您提供用于将IP解析为地域的函数所需资源，您仅需将其下载至本地，并在DataWorks注册函数前，将函数涉及的资源上传至DataWorks空间即可。
该函数仅为本教程使用（IP资源样例），若需在正式业务中实现IP到地理位置的映射功能，需前往专业IP网站获取相关IP转换服务。

上传资源（ip2region.jar）

下载ip2region.jar。
说明
ip2region.jar资源样例仅为教程使用。
在Data Studio页面左侧导航栏单击，进入资源管理页面，单击 > 新建资源 > MaxCompute Jar，设置资源名称后，进入资源上传页面。
说明
资源名称无需与上传的文件名保持一致。
文件来源选择本地，单击文件内容后的点击上传，选择已下载至本地的ip2region.jar。
数据源选择准备环境阶段绑定的MaxCompute计算资源。
在节点工具栏单击保存，然后单击发布，根据发布面板提示，将资源发布至开发环境和生产环境对应的MaxCompute项目中。

注册函数（getregion）

在资源管理页面，单击 > 新建函数 > MaxCompute Function，设置资源名称后，进入注册函数页面（本教程函数命名为getregion）。

在注册函数页面，配置相关参数。以下为本教程所需配置的关键参数，未说明参数保持默认即可。

参数	描述
函数类型	选择`OTHER`。
数据源	选择准备环境阶段绑定的MaxCompute计算资源。
类名	输入`org.alidata.odps.udf.Ip2Region`。
资源列表	选择`ip2region.jar`。
描述	IP地址转换地域。
命令格式	输入`getregion('ip')`。
参数说明	IP地址。

在节点工具栏单击的保存，然后单击发布，根据发布面板提示，将函数发布至开发环境和生产环境对应的MaxCompute项目中。

三、配置数据加工节点

数据加工需要将每层加工逻辑通过MaxCompute SQL调度实现，本教程已提供完整的数据加工SQL示例代码，您需要依次为dwd_log_info_di_odps、dws_user_info_all_di_odps和ads_user_info_1d_odps节点配置。

配置dwd_log_info_di_odps节点

在本节点的示例代码中，利用创建的函数处理上游表ods_raw_log_d_odps字段的SQL代码，并将其写入dwd_log_info_di_odps表中。

在Data Studio左侧导航栏单击，进入数据开发页面，然后在项目目录区域找到已创建好的工作流，单击进入工作流编排页。
在工作流编排页面中，鼠标悬停至dwd_log_info_di_odps节点上，单击打开节点。

将如下代码粘贴至节点编辑页面。

dwd_log_info_di_odps节点代码示例

-- 创建dwd_log_info_di_odps表
CREATE TABLE IF NOT EXISTS dwd_log_info_di_odps (
 ip STRING COMMENT 'ip地址',
 uid STRING COMMENT '用户ID',
 time STRING COMMENT '时间yyyymmddhh:mi:ss',
 status STRING COMMENT '服务器返回状态码',
 bytes STRING COMMENT '返回给客户端的字节数',
 region STRING COMMENT '地域，根据ip得到',
 method STRING COMMENT 'http请求类型',
 url STRING COMMENT 'url',
 protocol STRING COMMENT 'http协议版本号',
 referer STRING COMMENT '来源url',
 device STRING COMMENT '终端类型 ',
 identity STRING COMMENT '访问类型 crawler feed user unknown'
)
PARTITIONED BY (
 dt STRING
)
LIFECYCLE 14;

-- 加工数据
-- 场景：以下SQL使用函数getregion对原始日志数据中的ip进行解析，并通过正则等方式，将原始数据拆解为可分析字段写入并写入dwd_log_info_di_odps表。
--      本教程已为您准备好用于将IP解析为地域的函数getregion。
-- 补充：
--     1. 在DataWorks节点中使用函数前，您需要先将注册函数所需资源上传至DataWorks，再通过可视化方式使用该资源注册函数。
--        本教程注册函数getregion所用的资源为ip2region.jar。
--     2. DataWorks提供调度参数，可实现调度场景下，将每日增量数据写入目标表对应业务分区。
--        在实际开发场景下，您可通过${变量名}格式定义代码变量，并在调度配置页面通过为变量赋值调度参数的方式，实现调度场景下代码动态入参。
INSERT OVERWRITE TABLE dwd_log_info_di_odps PARTITION (dt='${bizdate}')
SELECT ip 
  , uid
  , time
  , status
  , bytes 
  , getregion(ip) AS region --使用自定义UDF通过IP得到地域。
  , regexp_substr(request, '(^[^ ]+ )') AS method --通过正则把request差分为3个字段。
  , regexp_extract(request, '^[^ ]+ (.*) [^ ]+$') AS url
  , regexp_substr(request, '([^ ]+$)') AS protocol 
  , regexp_extract(referer, '^[^/]+://([^/]+){1}') AS referer --通过正则清晰refer，得到更精准的URL。
  , CASE
    WHEN TOLOWER(agent) RLIKE 'android' THEN 'android' --通过agent得到终端信息和访问形式。
    WHEN TOLOWER(agent) RLIKE 'iphone' THEN 'iphone'
    WHEN TOLOWER(agent) RLIKE 'ipad' THEN 'ipad'
    WHEN TOLOWER(agent) RLIKE 'macintosh' THEN 'macintosh'
    WHEN TOLOWER(agent) RLIKE 'windows phone' THEN 'windows_phone'
    WHEN TOLOWER(agent) RLIKE 'windows' THEN 'windows_pc'
    ELSE 'unknown'
  END AS device
  , CASE
    WHEN TOLOWER(agent) RLIKE '(bot|spider|crawler|slurp)' THEN 'crawler'
    WHEN TOLOWER(agent) RLIKE 'feed'
    OR regexp_extract(request, '^[^ ]+ (.*) [^ ]+$') RLIKE 'feed' THEN 'feed'
    WHEN TOLOWER(agent) NOT RLIKE '(bot|spider|crawler|feed|slurp)'
    AND agent RLIKE '^[Mozilla|Opera]'
    AND regexp_extract(request, '^[^ ]+ (.*) [^ ]+$') NOT RLIKE 'feed' THEN 'user'
    ELSE 'unknown'
  END AS identity
  FROM (
    SELECT SPLIT(col, '##@@')[0] AS ip
    , SPLIT(col, '##@@')[1] AS uid
    , SPLIT(col, '##@@')[2] AS time
    , SPLIT(col, '##@@')[3] AS request
    , SPLIT(col, '##@@')[4] AS status
    , SPLIT(col, '##@@')[5] AS bytes
    , SPLIT(col, '##@@')[6] AS referer
    , SPLIT(col, '##@@')[7] AS agent
  FROM ods_raw_log_d_odps  
  WHERE dt ='${bizdate}'
) a;

配置调试参数。

在MaxCompute SQL节点编辑页面右侧单击调试配置，配置以下参数，用于在步骤四调试运行中使用调试配置的相关参数测试运行。

配置项	配置说明
计算资源	选择准备环境阶段绑定的MaxCompute计算资源以及其对应的计算配额。
资源组	选择准备环境阶段购买的Serverless资源组。
脚本参数	无需配置。本教程提供的示例代码中统一使用`${bizdate}`表示业务日期，在步骤四调试运行工作流时，设置本次运行值为具体常量（例如`20250223`），任务运行将会使用此常量替换任务中定义的变量。

（可选）配置调度属性。
本教程调度配置相关参数保持默认即可，您可以在MaxCompute SQL页面右侧单击调度配置。调度配置中参数的详细说明，详情可参见节点调度。
- 调度参数：本教程已在工作流调度参数中统一配置，工作流内部节点无需配置，在任务或代码中可直接使用。
- 调度策略：您可以在延时执行时间参数中指定子节点在工作流执行后，延迟多久再执行，本教程不设置。
在节点工具栏单击保存。

配置dws_user_info_all_di_odps节点

本节点对用户基本信息表（ods_user_info_d_odps）和初步加工后的日志数据表（dwd_log_info_di_odps）进行汇总，将数据写入dws_user_info_all_di_odps表中。

在工作流编排页面中，鼠标悬停至dws_user_info_all_di_odps节点上，单击打开节点。

将如下代码粘贴至节点编辑页面。

dws_user_info_all_di_odps节点代码示例

-- 创建dws_user_info_all_di_odps表
CREATE TABLE IF NOT EXISTS dws_user_info_all_di_odps (
 uid STRING COMMENT '用户ID',
 gender STRING COMMENT '性别',
 age_range STRING COMMENT '年龄段',
 zodiac STRING COMMENT '星座',
 region STRING COMMENT '地域，根据ip得到',
 device STRING COMMENT '终端类型 ',
 identity STRING COMMENT '访问类型 crawler feed user unknown',
 method STRING COMMENT 'http请求类型',
 url STRING COMMENT 'url',
 referer STRING COMMENT '来源url',
 time STRING COMMENT '时间yyyymmddhh:mi:ss'
)
PARTITIONED BY (
 dt STRING
)
LIFECYCLE 14;

-- 加工数据
-- 场景：将加工后的日志数据dwd_log_info_di_odps与用户基本信息数据ods_user_info_d_odps汇总写入dws_user_info_all_di_odps表。
-- 补充：DataWorks提供调度参数，可实现调度场景下，将每日增量数据写入目标表对应业务分区。
--      在实际开发场景下，您可通过${变量名}格式定义代码变量，并在调度配置页面通过为变量赋值调度参数的方式，实现调度场景下代码动态入参。
INSERT OVERWRITE TABLE dws_user_info_all_di_odps  PARTITION (dt='${bizdate}')
SELECT COALESCE(a.uid, b.uid) AS uid
  , b.gender
  , b.age_range
  , b.zodiac
  , a.region
  , a.device
  , a.identity
  , a.method
  , a.url
  , a.referer
  , a.time
FROM (
  SELECT *
  FROM dwd_log_info_di_odps  
  WHERE dt = '${bizdate}'
) a
LEFT OUTER JOIN (
  SELECT *
  FROM ods_user_info_d_odps 
  WHERE dt = '${bizdate}'
) b
ON a.uid = b.uid;

配置调试参数。

在MaxCompute SQL节点编辑页面右侧单击调试配置，配置以下参数，用于在步骤四调试运行中使用调试配置的相关参数测试运行。

配置项	配置说明
计算资源	选择准备环境阶段绑定的MaxCompute计算资源以及其对应的计算配额。
资源组	选择准备环境阶段购买的Serverless资源组。
脚本参数	无需配置。本教程提供的示例代码中统一使用`${bizdate}`表示业务日期，在步骤四调试运行工作流时，设置本次运行值为具体常量（例如`20250223`），任务运行将会使用此常量替换任务中定义的变量。

（可选）配置调度属性。
本教程调度配置相关参数保持默认即可，您可以在MaxCompute SQL页面右侧单击调度配置。调度配置中参数的详细说明，详情可参见节点调度。
- 调度参数：本教程已在工作流调度参数中统一配置，工作流内部节点无需配置，在任务或代码中可直接使用。
- 调度策略：您可以在延时执行时间参数中指定子节点在工作流执行后，延迟多久再执行，本教程不设置。
在节点工具栏单击保存。

配置ads_user_info_1d_odps节点

本节点对dws_user_info_all_di_odps表中数据进一步加工，将数据写入ads_user_info_1d_odps表，产出基本用户画像。

在工作流编排页面中，鼠标悬停至ads_user_info_1d_odps节点上，单击打开节点。

将如下代码粘贴至节点编辑页面。

ads_user_info_1d_odps节点代码示例

-- 创建ads_user_info_1d_odps表
CREATE TABLE IF NOT EXISTS ads_user_info_1d_odps (
 uid STRING COMMENT '用户ID',
 region STRING COMMENT '地域，根据ip得到',
 device STRING COMMENT '终端类型 ',
 pv BIGINT COMMENT 'pv',
 gender STRING COMMENT '性别',
 age_range STRING COMMENT '年龄段',
 zodiac STRING COMMENT '星座'
)
PARTITIONED BY (
 dt STRING
)
LIFECYCLE 14;    

-- 加工数据
-- 场景：以下SQL用于对用户访问信息宽表dws_user_info_all_di_odps进一步加工产出基本的用户画像数据写入ads_user_info_1d_odps表。
-- 补充：DataWorks提供调度参数，可实现调度场景下，将每日增量数据写入目标表对应业务分区。
--      在实际开发场景下，您可通过${变量名}格式定义代码变量，并在调度配置页面通过为变量赋值调度参数的方式，实现调度场景下代码动态入参。
INSERT OVERWRITE TABLE ads_user_info_1d_odps  PARTITION (dt='${bizdate}')
SELECT uid
  , MAX(region)
  , MAX(device)
  , COUNT(0) AS pv
  , MAX(gender)
  , MAX(age_range)
  , MAX(zodiac)
FROM dws_user_info_all_di_odps 
WHERE dt = '${bizdate}'
GROUP BY uid;

配置调试参数。

在MaxCompute SQL节点编辑页面右侧单击调试配置，配置以下参数，用于在步骤四调试运行中使用调试配置的相关参数测试运行。

配置项	配置说明
计算资源	选择准备环境阶段绑定的MaxCompute计算资源以及其对应的计算配额。
资源组	选择准备环境阶段购买的Serverless资源组。
脚本参数	无需配置。本教程提供的示例代码中统一使用`${bizdate}`表示业务日期，在步骤四调试运行工作流时，设置本次运行值为具体常量（例如`20250223`），任务运行将会使用此常量替换任务中定义的变量。

（可选）配置调度属性。
本教程调度配置相关参数保持默认即可，您可以在MaxCompute SQL页面右侧单击调度配置。调度配置中参数的详细说明，详情可参见节点调度。
- 调度参数：本教程已在工作流调度参数中统一配置，工作流内部节点无需配置，在任务或代码中可直接使用。
- 调度策略：您可以在延时执行时间参数中指定子节点在工作流执行后，延迟多久再执行，本教程不设置。
在节点工具栏单击保存。

四、加工数据

加工数据。
在工作流工具栏中，单击运行，设置各节点定义的参数变量在本次运行中的取值（本教程使用20250223，您可以按需修改），单击确定后，等待运行完成。
查询数据加工结果。
1. 在Data Studio左侧导航栏单击，进入数据开发页面，然后在个人目录区域，单击，创建一个后缀为.sql的文件（文件名称自定义即可）。
2. 在页面底部如下位置确认语言模式是否为MaxCompute SQL。
3. 在SQL编辑窗口中输入如下SQL语句，查看最终结果表ads_user_info_1d_odps的记录数，确认是否产生数据加工结果。
```
-- 此处您需要修改分区过滤条件为您当前操作的实际业务日期。本教程中，前文配置的调试参数bizdate(业务日期)为20250223。
SELECT count(*) FROM ads_user_info_1d_odps WHERE dt='业务日期';
```
  - 上述命令查询存在数据，即表示数据加工已完成。
  - 如果没有数据，请确保运行工作流时，配置的本次运行值与此处查询时dt指定的业务日期一致，您可以单击工作流，单击右侧的运行历史，在运行记录右侧操作列单击查看，然后在工作流的运行日志中确认运行工作流时业务日期的取值（partition=[pt=xxx]）。