加工数据

更新时间:2025-03-14 02:35:06

本文为您介绍如何将同步至StarRocks的用户信息表ods_user_info_d_starrocks及访问日志数据ods_raw_log_d_starrocks,通过DataWorksStarRocks节点加工得到目标用户画像数据,阅读本文后,您可以了解如何通过DataWorks+StarRocks产品组合来计算和分析已同步的数据,完成数仓简单数据加工场景。

前提条件

开始本实验前,请先完成同步数据中的操作。

步骤一:设计数据加工流程

同步数据阶段,已经成功将数据同步至StarRocks,接下来的流程的目标是对数据进行进一步加工,以输出基本用户画像数据。

  1. Data Studio左侧导航栏单击image,然后在项目目录区域找到已创建好的工作流,单击进入工作流看板。

  2. 单击编辑工作流,在工作流开发页面,从左侧拖拽StarRocks节点至画布中,分别设置节点名称。

    本教程节点名称示例及作用如下:

    节点类型

    节点名称

    节点作用

    节点类型

    节点名称

    节点作用

    imageStarRocks

    dwd_log_info_di_starrocks

    使用内置函数,自定义函数等完成原始日志ods_raw_log_d_starrocks数据拆分写入dwd_log_info_di_starrocks表多个字段。

    imageStarRocks

    dws_user_info_all_di_starrocks

    用户基本信息ods_user_info_d_starrocks)和初步加工后的日志数据dwd_log_info_di_starrocks)进行汇总,将数据写入dws_user_info_all_di_starrocks表中。

    imageStarRocks

    ads_user_info_1d_starrocks

    dws_user_info_all_di_starrocks表中数据进一步加工,将数据写入ads_user_info_1d_starrocks表,产出基本用户画像。

  3. 手动拖拽连线,配置各节点的上游节点。最终效果如下:

    image
    说明

    工作流中支持通过手动连线方式设置各节点的上下游依赖关系,也支持在子节点中,使用代码解析自动识别节点上下游依赖关系。本教程采用手动连线方式,代码解析的更多信息,请参见自动解析机制

  4. 在顶部工具栏单击保存,保存工作流。

步骤二:注册函数

根据同步的实验日志数据结构,我们需要通过函数等方式将其拆解成表格。本案例已为您提供用于将IP解析为地域的函数所需资源,您仅需将其下载至本地,并将其注册至StarRocks数据库中即可。

重要
  • 本教程已为您提供用于将IP解析为地域的函数所需资源,您仅需将其下载至本地,并在DataWorks注册函数前,将函数涉及的资源上传至OSS对象存储即可。

  • 该函数仅为本教程使用(IP资源样例),若需在正式业务中实现IP到地理位置的映射功能,需前往专业IP网站获取相关IP转换服务。

上传资源(ip2region-starrocks.jar)

  1. 下载ip2region-starrocks.jar

    说明

    ip2region-starrocks.jar资源样例仅为教程使用。

  2. 上传资源至OSS。

    1. 登录对象存储OSS控制台,进入准备环境阶段创建的OSS Bucket路径下创建dataworks_starrocks目录。

    2. 上传ip2region-starrocks.jar资源至dataworks_starrocks目录下。

      本案例的资源存储完整路径为:https://test.oss-cn-shanghai-internal.aliyuncs.com/dataworks_starrocks/ip2region-starrocks.jar,您可参考该路径格式获得您上传的OSS资源存储路径。

      说明
      • 本案例Buckettest

      • 自定义函数所在的Bucket网络地址使用ECS的经典网络访问(内网)地址。

      • 使用内网地址时需要OSS Bucket地域和DataWorks工作空间所在地域相同,本案例均在华东2(上海)地域。

注册函数(getregion)

  1. 新建注册函数节点。

    Data Studio左侧导航栏单击image,然后在项目目录区域单击image按钮,选择新建节点 > 数据库 > StarRocks新建一个StarRocks节点。

  2. 编辑并注册函数。

    • 注册函数。

      CREATE FUNCTION getregion(string)
      RETURNS string
      PROPERTIES ( 
          "symbol" = "com.starrocks.udf.sample.Ip2Region", 
          "type" = "StarrocksJar",
          "file" = "此处请替换文件存储在oss的完整路径,文件路径获取请参见上传资源"
      );
    • 确认函数是否注册成功。

      SELECT getregion('您本机ip');
    重要

    函数在生产环境和开发环境仅能进行一次注册,注册函数的StarRocks节点需发布至生产环境在生产环境注册函数。

  3. 在顶部工具栏单击保存,然后单击发布,根据发布面板提示,将函数注册任务发布至开发环境和生产环境对应的StarRocks中,并对该任务进行补数据,在生产环境注册函数。函数注册完成后,需在运维中心手动冻结生产环境中的注册函数任务,避免重复注册导致任务执行失败。

步骤三:配置StarRocks节点

数据加工需要将每层加工逻辑通过StarRocks调度实现,本案例已提供完整的数据加工SQL示例代码,您需要依次为dwd_log_info_di_starrocksdws_user_info_all_di_starrocksads_user_info_1d_starrocks节点配置。

配置dwd_log_info_di_starrocks节点

在本节点的示例代码中,利用创建的函数处理上游表ods_raw_log_d_starrocks字段的SQL代码,并将其写入dwd_log_info_di_starrocks表中。

  1. Workflow画布中,鼠标悬停至dwd_log_info_di_starrocks节点上,单击打开节点

  2. 在节点编辑页面的选择数据源处选择准备环境阶段准备的StarRocks计算资源。

  3. 将如下代码粘贴至SQL编辑页面。

    说明

    dwd_log_info_di_starrocks节点的示例代码中,利用创建的函数处理上游表ods_raw_log_d_starrocks字段的SQL代码,并将其写入dwd_log_info_di_starrocks表中。

    dwd_log_info_di_starrocks节点代码示例

    CREATE TABLE IF NOT EXISTS dwd_log_info_di_starrocks (
        uid STRING COMMENT '用户ID',
        ip STRING COMMENT 'ip地址',
        TIME STRING COMMENT '时间yyyymmddhh:mi:ss',
        status STRING COMMENT '服务器返回状态码',
        bytes STRING COMMENT '返回给客户端的字节数',
        region STRING COMMENT '地域,根据ip得到',
        method STRING COMMENT 'http请求类型',
        url STRING COMMENT 'url',
        protocol STRING COMMENT 'http协议版本号',
        referer STRING COMMENT '来源url',
        device STRING COMMENT '终端类型 ',
        identity STRING COMMENT '访问类型 crawler feed user unknown',
        dt DATE NOT NULL COMMENT '时间'
    ) DUPLICATE KEY(uid) 
    COMMENT '用户行为分析案例-网站访问日志明细表' 
    PARTITION BY(dt) 
    PROPERTIES ("replication_num" = "1");
    
    -- 本示例按字段dt动态分区,为避免节点重跑数据重复写入,通过以下命令实现每次加工前删除已有目标分区。
    ALTER TABLE dwd_log_info_di_starrocks DROP PARTITION IF EXISTS p${var} FORCE;
    
    --场景:以下SQL使用函数getregion对原始日志数据中的ip进行解析,并通过正则等方式,将原始数据拆解为可分析字段写入并写入dwd_log_info_di_starrocks表。
    --补充:
    --     1. 在DataWorks节点中使用自定义函数前,您需要先注册函数。
    --     2. DataWorks提供调度参数,可实现调度场景下,将每日增量数据写入目标表对应业务分区。
    --        在实际开发场景下,您可通过${变量名}格式定义代码变量,并在调度配置页面通过为变量赋值调度参数的方式,实现调度场景下代码动态入参。
    INSERT INTO dwd_log_info_di_starrocks 
    SELECT 
        uid
        , ip  
        , time
        , status
        , bytes 
        , getregion(ip) AS region--使用自定义UDF通过IP得到地域
        ,REGEXP_EXTRACT(request, '([^ ]+)', 1) AS method
        ,REGEXP_EXTRACT(request, '^[^ ]+ (.*) [^ ]+$', 1) AS url
        ,REGEXP_EXTRACT(request, '([^ ]+)$', 1) AS protocol
        ,REGEXP_EXTRACT(referer, '^[^/]+://([^/]+)', 1) AS referer
      , CASE
        WHEN LOWER(agent) REGEXP 'android' THEN 'android'
        WHEN LOWER(agent) REGEXP 'iphone' THEN 'iphone'
        WHEN LOWER(agent) REGEXP 'ipad' THEN 'ipad'
        WHEN LOWER(agent) REGEXP 'macintosh' THEN 'macintosh'
        WHEN LOWER(agent) REGEXP 'windows phone' THEN 'windows_phone'
        WHEN LOWER(agent) REGEXP 'windows' THEN 'windows_pc'
        ELSE 'unknown'
    END AS device
      , CASE
        WHEN LOWER(agent) REGEXP '(bot|spider|crawler|slurp)' THEN 'crawler'
        WHEN LOWER(agent) REGEXP 'feed' OR REGEXP_EXTRACT(request, '^[^ ]+ (.*) [^ ]+$', 0) REGEXP 'feed' THEN 'feed'
        WHEN NOT (LOWER(agent) REGEXP '(bot|spider|crawler|feed|slurp)') 
             AND agent REGEXP '^(Mozilla|Opera)' 
             AND NOT (REGEXP_EXTRACT(request, '^[^ ]+ (.*) [^ ]+$', 0) REGEXP 'feed') THEN 'user'
        ELSE 'unknown'
    END AS identity,
     cast('${var}' AS DATE )AS dt
      FROM (
        SELECT
          SPLIT_PART(CAST(col AS VARCHAR(65533)), '##@@', 1)  AS ip
        , SPLIT_PART(CAST(col AS VARCHAR(65533)), '##@@', 2)  AS uid
        , SPLIT_PART(CAST(col AS VARCHAR(65533)), '##@@', 3)  AS time
        , SPLIT_PART(CAST(col AS VARCHAR(65533)), '##@@', 4)  AS request
        , SPLIT_PART(CAST(col AS VARCHAR(65533)), '##@@', 5)  AS status
        , SPLIT_PART(CAST(col AS VARCHAR(65533)), '##@@', 6)  AS bytes
        , SPLIT_PART(CAST(col AS VARCHAR(65533)), '##@@', 7)  AS referer
        , SPLIT_PART(CAST(col AS VARCHAR(65533)), '##@@', 8)  AS agent
    FROM
        ods_raw_log_d_starrocks
    WHERE
        dt = '${var}'
    ) a;
  4. 配置调试参数。

    StarRocks编辑页面右侧单击调试配置,配置以下参数,用于在步骤四调试运行中使用调试配置的相关参数测试运行。

    配置项

    配置说明

    配置项

    配置说明

    计算资源

    选择准备环境阶段绑定的StarRocks计算资源。

    资源组

    选择准备环境阶段购买的Serverless资源组。

    脚本参数

    单击添加参数,配置为var=yyyymmdd格式的具体常量(例如var=20250223)。在调试时,Data Studio将会使用此常量替换任务中的定义的变量。

  5. (可选)配置调度属性。

    本教程调度配置相关参数保持默认即可,您可以在离线同步任务配置页面右侧单击调度配置,确认如下关键参数取值是否与本教程一致。调度配置中其他参数的详细说明,详情可参见调度配置

    • 调度参数:本教程已在工作流调度参数中统一配置,工作流内部节点无需配置,在任务或代码中可直接使用。

    • 调度策略:您可以在延时执行时间参数中指定子节点在工作流执行后,延迟多久再执行,本教程不设置。

  6. 在顶部工具栏单击保存,保存当前节点。

配置dws_user_info_all_di_starrocks节点

本节点对用户基本信息表(ods_user_info_d_starrocks)和初步加工后的日志数据表(dwd_log_info_di_starrocks)进行汇总,将数据写入dws_user_info_all_di_starrocks表中。

  1. Workflow画布中,鼠标悬停至dws_user_info_all_di_starrocks节点上,单击打开节点

  2. 在节点编辑页面的选择数据源处选择准备环境阶段准备的StarRocks计算资源。

  3. 将如下代码粘贴至SQL编辑页面。

    说明

    dws_user_info_all_di_starrocks节点的编辑页面,编写合并上游表dwd_log_info_di_starrocksods_user_info_d_starrocksSQL代码,写入dws_user_info_all_di_starrocks表中。

    dws_user_info_all_di_starrocks节点代码示例

    CREATE TABLE IF NOT EXISTS dws_user_info_all_di_starrocks (
        uid STRING COMMENT '用户ID',
        gender STRING COMMENT '性别',
        age_range STRING COMMENT '年龄段',
        zodiac STRING COMMENT '星座',
        region STRING COMMENT '地域,根据ip得到',
        device STRING COMMENT '终端类型 ',
        identity STRING COMMENT '访问类型 crawler feed user unknown',
        method STRING COMMENT 'http请求类型',
        url STRING COMMENT 'url',
        referer STRING COMMENT '来源url',
        TIME STRING COMMENT '时间yyyymmddhh:mi:ss',
        dt DATE NOT NULL COMMENT '时间'
    ) DUPLICATE KEY(uid) 
    COMMENT '用户行为分析案例-用户网站访问信息宽表' 
    PARTITION BY(dt) 
    PROPERTIES ("replication_num" = "1");
    
    -- 本示例按字段dt动态分区,为避免节点重跑数据重复写入,通过以下命令实现每次加工前删除已有目标分区。
    ALTER TABLE dws_user_info_all_di_starrocks DROP PARTITION IF EXISTS p${var} FORCE;
    
    
    -- 场景:将加工后的日志数据dwd_log_info_di_starrocks 与用户基本信息数据ods_user_info_d_starrocks汇总写入dws_user_info_all_di_starrocks表。
    -- 补充:DataWorks提供调度参数,可实现调度场景下,将每日增量数据写入目标表对应业务分区。
    --      在实际开发场景下,您可通过${变量名}格式定义代码变量,并在调度配置页面通过为变量赋值调度参数的方式,实现调度场景下代码动态入参。
    INSERT INTO dws_user_info_all_di_starrocks 
    SELECT 
        IFNULL(a.uid, b.uid) AS uid,
        b.gender,
        b.age_range,
        b.zodiac,
        a.region,
        a.device,
        a.identity,
        a.method,
        a.url,
        a.referer,
        a.time,
        a.dt
    FROM dwd_log_info_di_starrocks a
    LEFT JOIN ods_user_info_d_starrocks b
    ON a.uid = b.uid
    WHERE a.dt = '${var}';
    
  4. 配置调试参数。

    StarRocks编辑页面右侧单击调试配置,配置以下参数,用于在步骤四调试运行中使用调试配置的相关参数测试运行。

    配置项

    配置说明

    配置项

    配置说明

    计算资源

    选择准备环境阶段绑定的StarRocks计算资源。

    资源组

    选择准备环境阶段购买的Serverless资源组。

    脚本参数

    单击添加参数,配置为var=yyyymmdd格式的具体常量(例如var=20250223)。在调试时,Data Studio将会使用此常量替换任务中的定义的变量。

  5. (可选)配置调度属性。

    本教程调度配置相关参数保持默认即可,您可以在离线同步任务配置页面右侧单击调度配置,确认如下关键参数取值是否与本教程一致。调度配置中其他参数的详细说明,详情可参见调度配置

    • 调度参数:本教程已在工作流调度参数中统一配置,工作流内部节点无需配置,在任务或代码中可直接使用。

    • 调度策略:您可以在延时执行时间参数中指定子节点在工作流执行后,延迟多久再执行,本教程不设置。

  6. 在顶部工具栏单击保存,保存当前节点。

配置ads_user_info_1d_starrocks节点

本节点对dws_user_info_all_di_starrocks表中数据进一步加工,将数据写入ads_user_info_1d_starrocks表,产出基本用户画像。

  1. Workflow画布中,鼠标悬停至ads_user_info_1d_starrocks节点上,单击打开节点

  2. 在节点编辑页面的选择数据源处选择准备环境阶段准备的StarRocks计算资源。

  3. 将如下代码粘贴至SQL编辑页面。

    ads_user_info_1d_starrocks节点代码示例

    CREATE TABLE IF NOT EXISTS ads_user_info_1d_starrocks (
    uid STRING COMMENT '用户ID',
    region STRING COMMENT '地域,根据ip得到',
    device STRING COMMENT '终端类型 ',
    pv BIGINT COMMENT 'pv',
    gender STRING COMMENT '性别',
    age_range STRING COMMENT '年龄段',
    zodiac STRING COMMENT '星座',
    dt DATE NOT NULL COMMENT '时间'
    ) DUPLICATE KEY(uid) 
    COMMENT '用户行为分析案例-用户画像数据' 
    PARTITION BY(dt) 
    PROPERTIES ("replication_num" = "1");
    
    -- 本示例按字段dt动态分区,为避免节点重跑数据重复写入,通过以下命令实现每次加工前删除已有目标分区。
    ALTER TABLE ads_user_info_1d_starrocks DROP PARTITION IF EXISTS p${var} FORCE;
    
    -- 场景:以下SQL用于对用户访问信息宽表dws_user_info_d_all_di_starrocks 进一步加工产出基本的用户画像数据写入ads_user_info_1d_starrocks 表。
    -- 补充:DataWorks提供调度参数,可实现调度场景下,将每日增量数据写入目标表对应业务分区。
    -- 在实际开发场景下,您可通过${变量名}格式定义代码变量,并在调度配置页面通过为变量赋值调度参数的方式,实现调度场景下代码动态入参。
    INSERT INTO ads_user_info_1d_starrocks 
    SELECT 
    uid,
    MAX(region) AS region,
    MAX(device) AS device,
    COUNT(*) AS pv,
    MAX(gender) AS gender,
    MAX(age_range) AS age_range,
    MAX(zodiac) AS zodiac,
    dt
    FROM dws_user_info_all_di_starrocks
    WHERE dt = '${var}'
    GROUP BY uid, dt;
    
    SELECT * FROM dws_user_info_all_di_starrocks
    WHERE dt = '${var}';
  4. 配置调试参数。

    StarRocks编辑页面右侧单击调试配置,配置以下参数,用于在步骤四调试运行中使用调试配置的相关参数测试运行。

    配置项

    配置说明

    配置项

    配置说明

    计算资源

    选择准备环境阶段绑定的StarRocks计算资源。

    资源组

    选择准备环境阶段购买的Serverless资源组。

    脚本参数

    单击添加参数,配置为var=yyyymmdd格式的具体常量(例如var=20250223)。在调试时,Data Studio将会使用此常量替换任务中的定义的变量。

  5. (可选)配置调度属性。

    本教程调度配置相关参数保持默认即可,您可以在离线同步任务配置页面右侧单击调度配置,确认如下关键参数取值是否与本教程一致。调度配置中其他参数的详细说明,详情可参见调度配置

    • 调度参数:本教程已在工作流调度参数中统一配置,工作流内部节点无需配置,在任务或代码中可直接使用。

    • 调度策略:您可以在延时执行时间参数中指定子节点在工作流执行后,延迟多久再执行,本教程不设置。

  6. 在顶部工具栏单击保存,保存当前节点。

步骤四:加工数据

  1. 同步数据。

    Workflow画布顶部工具栏中,单击运行,设置各节点定义的参数变量在本次运行中的取值(本教程使用20250223,您可以按需修改),单击确定后,等待运行完成。

  2. 查询结果。

    1. 进入SQL查询页面。

      登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据分析与服务 > 数据分析,单击进入数据分析页面,单击左侧导航栏的SQL查询进入SQL查询页面。

    2. 配置SQL查询文件。

      1. 单击我的文件后的image按钮新建文件,自定义SQL查询文件名。

      2. 单击已新建的文件,进入文件编辑页面。

      3. 在文件编辑页面单击右上角的image按钮,配置需进行SQL查询的工作空间等信息,配置详情如下:

        配置项

        说明

        配置项

        说明

        工作空间

        选择user_profile_analysis_starrocks工作流所在的工作空间。

        数据源类型

        下拉选择StarRocks

        数据源名称

        选择在准备环境时绑定的Starrocks开发环境。

      4. 单击确认按钮,完成查询数据源的配置。

    3. 编辑查询SQL。

      在确保该章节内的所有节点运行成功的情况下,编写以下SQL查询以检查StarRocks节点创建的外部表是否正常产出。

      --查询语句中的分区列需要更新为业务日期。例如,任务运行的日期为20250223,则业务日期为20250222,即任务运行日期的前一天。
      SELECT * FROM ads_user_info_1d_starrocks  WHERE dt=业务日期; 

步骤五:发布工作流

任务需要发布至生产环境后才可自动调度运行,您可以参考如下步骤,将工作流发布至生产环境。

说明

本教程已在工作流调度配置中统一配置了调度参数,发布前无需再为每个节点单独配置调度参数。

  1. Data Studio左侧导航栏单击image,然后在项目目录区域找到已创建好的工作流,单击进入工作流看板。

  2. 单击页面顶部工具栏中的发布,打开发布面板。

  3. 单击开始发布生产,根据发布流程引导,完成发布。

步骤六:在生产环境运行任务

任务发布后,在次日才会生成实例运行,您可以通过补数据来对已发布流程进行补数据操作,以便查看任务在生产环境是否可以运行,详情可参见执行补数据并查看补数据实例(新版)

  1. 任务发布成功后,单击右上角的运维中心

    您也可以单击左上方的图标图标,选择全部产品 > 数据开发与运维 > 运维中心(工作流)

  2. 单击左侧导航栏中的周期任务运维 > 周期任务,进入周期任务页面,单击workshop_start_starrocks虚拟节点。

  3. 在右侧的DAG图中,右键单击workshop_start_starrocks节点,选择补数据 > 当前节点及下游节点

  4. 勾选需要补数据的任务,设置业务日期,单击提交并跳转

  5. 在补数据页面单击刷新,直至SQL任务全部运行成功即可。

说明

实验完成后,为了避免后续持续产生费用,您可以选择设置节点调度有效期或者冻结业务流程根节点(虚拟节点workshop_start_starrocks)。

后续步骤

  • 数据可视化展现:用户画像分析完成后,使用数据分析模块,将加工后的数据以图表形式直观展示,便于您快速提取关键信息,洞察数据背后的业务趋势。

  • 监控数据质量:为数据加工生成的表配置数据质量监控,提前识别脏数据并进行拦截,避免脏数据影响扩大。

  • 管理数据:用户画像分析任务流程完成后,在StarRocks内将创建对应数据表。生成的数据表可在数据地图模块进行查看,可通过血缘查看生成表之间的关系。

  • API数据服务:获取最终加工后的数据后,使用数据服务模块,通过标准化的数据服务接口,实现数据的共享与应用,为其他使用API接收数据的业务模块提供数据。

  • 本页导读 (1)
  • 前提条件
  • 步骤一:设计数据加工流程
  • 步骤二:注册函数
  • 上传资源(ip2region-starrocks.jar)
  • 注册函数(getregion)
  • 步骤三:配置StarRocks节点
  • 配置dwd_log_info_di_starrocks节点
  • 配置dws_user_info_all_di_starrocks节点
  • 配置ads_user_info_1d_starrocks节点
  • 步骤四:加工数据
  • 步骤五:发布工作流
  • 步骤六:在生产环境运行任务
  • 后续步骤
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等