本文为您介绍如何创建本教程中的业务数据表及ID倒排表。

背景信息

通常,您的业务数据需采用创建同步任务或管道任务的方式,导入Dataphin平台中的萃取项目,以构建行为规则和标签。本教程为了让您快速熟悉标签构建的流程,采用代码任务的方式构建业务数据。
本教程中的数据表包括:
  • 用户浏览商品的表(s_item_view_d)。
    column type comment
    user_id string 用户ID
    item_id string 商品ID
    price Double 价格
    cate_level1 string 商品类目
    ds string 分区
  • 用户收藏商品的表(s_item_favor_d)。
    column type comment
    email string 邮箱
    item_id string 商品ID
    price Double 价格
    cate_level1 string 商品类目
    ds string 分区
  • 用户购买商品的表(s_item_buy_d)。
    column type comment
    phone_number string 电话号码
    item_id string 商品ID
    price Double 价格
    cate_level1 string 商品类目
    ds string 分区
  • ID倒排表(demo_id_mapping)。
    column type
    key_type string
    key_id string
    oneid string
    ds string

步骤一:创建虚拟节点

虚拟节点是用于业务数据表配置调度参数时依赖的节点。

  1. 登录Dataphin控制台
  2. 在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>>
  3. 进入离线计算任务页面。
    1. 在Dataphin首页,单击研发进入数据开发页面。
    2. 单击项目后的faga,在项目列表中选择Basic下的Data_distill项目。
    3. 单击数据处理,进入离线计算任务页面。
  4. 单击图标后,选择VIRTUAL
    fagf
  5. 根据对话框提示,配置参数。
    fagag
    参数 描述
    名称 填写表的名称,本教程中填写virtual
    调度类型 选择手动节点
    描述 填写对任务的简单描述。
    选择目录 选择虚拟节点所属类目。
  6. 完成参数配置后,单击确定
  7. 单击页面右上的fagag图标,完成虚拟节点的保存。
  8. 单击页面右上方的fagag图标,完成虚拟节点(virtual)的提交,提交后的虚拟节点(virtual)就可以参与调度。

步骤二:创建浏览商品的数据表(s_item_view_d)

  1. 单击图标后,选择MAX_COMPUTE_SQL
    fafa
  2. 根据对话框提示,配置参数。
    faga
    参数 描述
    名称 填写表的名称为s_item_view_d
    调度类型 选择周期性节点
    描述 填写对任务的简单描述。
    选择目录 选择数据表的所属目录。
  3. 完成参数配置后,单击确定
  4. 代码编写页面,编写建表及向表中写入数据的SQL语句。
    CREATE TABLE IF NOT EXISTS `s_item_view_d`
     (
      user_id STRING COMMENT '用户ID',
      item_id string COMMENT '商品id',
      price Double COMMENT '价格',
      cate_level1 string COMMENT '商品类目'
    )
    PARTITIONED BY (
      `ds` STRING
    );
    insert into table s_item_view_d partition (ds ='${bizdate}') values (1001,1,123,'女装'),(1001,1,123,'女装'),
    (1001,1,123,'女装'),(1002,5,368,'零食'),(1002,4,429,'生鲜'),(1002,6,429,'零食'),(1002,3,399,'箱包'),
    (1003,5,367,'家电'),(1003,6,728,'家具'),(1003,4,429,'家具'),
    (1004,11,889,'保健品'),(1004,10,789,'动漫'),(1004,12,999,'保健品'),
    (1005,5,2000,'箱包'),(1005,4,4999,'箱包'),(1005,5,2889,'箱包');
  5. 单击页面右上方的执行,执行编写的建表语句。
  6. 配置调度参数。
    1. 单击页面上方的调度配置
    2. 根据页面提示配置依赖关系区域参数,其余参数均保持默认值。调度配置的更多内容,请参见调度配置
      gagag
      参数 描述
      上游依赖 通过执行如下操作,完成添加该节点任务调度时依赖的上游节点:
      1. 单击新建上游依赖
      2. 新建上游依赖对话框中,输入virtual搜索步骤一中创建的虚拟节点。
      3. 单击确定新增
      当前节点 通过执行如下操作,设置当前节点的输出名称,根据需要您可以设置多个输出名称,供其他节点依赖使用:
      1. 单击新增
      2. 新增当前节点输出对话框中,填写输出名称为Data_distill.s_item_view_d,节点的输出名称是全局唯一的,且不区分大小写。
      3. 单击确定新增
      同时您还可以单击操作列下的fagaga图标,删除已添加的输出名称。
    3. 单击确定,完成调度配置。
  7. 单击页面右上的fagag图标,完成数据表(s_item_view_d)的保存。
  8. 单击页面右上方的fagag图标,完成数据表(s_item_view_d)的提交,提交后的数据表(s_item_view_d)就可以参与调度。
    提交成功后,您可以对当前节点已添加的输出名称,单击操作列下的图标,查看下游节点。

步骤三:创建收藏商品的数据表(s_item_favor_d)

  1. 单击图标后,选择MAX_COMPUTE_SQL
    faga
  2. 根据对话框提示,配置参数。
    faga
    参数 描述
    名称 填写表的名称为s_item_favor_d
    调度类型 选择周期性节点
    描述 填写对任务的简单描述。
    选择目录 选择数据表的所属目录。
  3. 完成参数配置后,单击确定
  4. 代码编写页面,编写建表及向表中写入数据的SQL语句。
    CREATE TABLE IF NOT EXISTS `s_item_favor_d`
    (
      email STRING COMMENT '邮箱',
      item_id string COMMENT '商品id',
      price Double COMMENT '价格',
      cate_level1 string COMMENT '商品类目'
    )
    PARTITIONED BY (
      `ds` STRING
    );
    insert into table s_item_favor_d partition (ds ='${bizdate}') values ('bochao3@hotmail.com','1',199,'女装'),('bochao3@hotmail.com','2',199,'女装'),
    ('zjud02122@qq.com','4',429,'箱包'),('zjud02122@qq.com','3',399,'箱包'),
    ('never34@gmail.com','4',789,'家电'),('never34@gmail.com','5',799,'家电'),
    ('info664@163.com','10',789,'保健品'),('info664@163.com','11',889,'保健品'),
    ('772289335@outlook.com','5',2000,'箱包'),('772289335@outlook.com','4',4999,'箱包');
  5. 单击页面右上方的执行,执行编写的建表语句。
  6. 配置调度参数。
    1. 单击页面上方的调度配置
    2. 根据页面提示配置依赖关系区域参数,其余参数均保持默认值。调度配置的更多内容,请参见调度配置
      gaga
      参数 描述
      上游依赖 通过执行如下操作,完成添加该节点任务调度时依赖的上游节点:
      1. 单击新建上游依赖
      2. 新建上游依赖对话框中,输入virtual搜索步骤一中创建的虚拟节点。
        说明 节点的输出名称是全局唯一的,且不区分大小写。
      3. 单击确定新增
      当前节点 通过执行如下操作,设置当前节点的输出名称:
      1. 单击新增
      2. 新增当前节点输出对话框中,填写输出名称为Data_distill.s_item_favor_d
      3. 单击确定新增
      同时您还可以单击操作列下的fagaga图标,删除已添加的输出名称。
    3. 单击确定,完成调度配置。
  7. 单击页面右上的fagag图标,完成数据表(s_item_favor_d)的保存。
  8. 单击页面右上方的fagag图标,完成数据表(s_item_favor_d)的提交,提交后的数据表(s_item_favor_d)就可以参与调度。
    提交成功后,您可以在调度配置当前节点区域,单击操作列下的图标,查看已添加的输出名称的下游节点。

步骤四:创建购买商品的数据表(s_item_buy_d)

  1. 单击图标后,选择MAX_COMPUTE_SQL
    faga
  2. 根据对话框提示,配置参数。
    dafa
    参数 描述
    名称 填写表的名称为s_item_buy_d
    调度类型 选择周期性节点
    描述 填写对任务的简单描述。
    选择目录 选择数据表的所属目录。
  3. 完成参数配置后,单击确定
  4. 代码编写页面,编写建表及向表中写入数据的SQL语句。
    CREATE TABLE IF NOT EXISTS `s_item_buy_d`
    (
      phone_number STRING COMMENT '电话号码',
      item_id string COMMENT '商品id',
      price Double COMMENT '价格',
      cate_level1 string COMMENT '商品类目'
    )
    PARTITIONED BY (
      `ds` STRING
    );
    insert into table s_item_buy_d partition (ds ='${bizdate}') values('15270159931','1',123,'女装'),
    ('18170159522','6',429,'零食'),
    ('13589374673','4',789,'家具'),
    ('17109872784','10',789,'动漫'),
    ('15300782675','5',2889,'箱包');
  5. 单击页面右上方的执行,执行编写的建表语句。
  6. 配置调度参数。
    1. 单击页面上方的调度配置
    2. 根据页面提示配置依赖关系区域参数,其余参数均保持默认值。调度配置的更多内容,请参见调度配置
      fdgag
      参数 描述
      上游依赖 通过执行如下操作,完成添加该节点任务调度时依赖的上游节点:
      1. 单击新建上游依赖
      2. 新建上游依赖对话框中,输入virtual搜索步骤一中创建的虚拟节点。
        说明 节点的输出名称是全局唯一的,且不区分大小写。
      3. 单击确定新增
      当前节点 通过执行如下操作,设置当前节点的输出名称:
      1. 单击新增
      2. 新增当前节点输出对话框中,填写输出名称为Data_distill.s_item_buy_d
      3. 单击确定新增
      同时您还可以单击操作列下的fagaga图标,删除已添加的输出名称。
    3. 单击确定,完成调度配置。
  7. 单击页面右上的fagag图标,完成表的保存。
  8. 单击页面右上方的fagag图标,完成数据表(s_item_buy_d)的提交,提交后的数据表(s_item_buy_d)就可以参与调度。
    提交成功后,您可以在调度配置当前节点区域,单击操作列下的图标,查看已添加的输出名称的下游节点。

步骤五:创建ID倒排表(demo_id_mapping)

ID倒排表基于OneID方法论,将同一用户的不同ID通过算法识别,用OneID连接起来,详情请参见新建行为规则

  1. 单击图标后,选择MAX_COMPUTE_SQL
    faga
  2. 根据对话框提示,完成参数配置后,单击确定
    fagag
    参数 描述
    名称 填写表的名称为demo_id_mapping
    调度类型 选择周期性节点
    描述 填写对任务的简单描述。
    选择目录 选择ID倒排表的所属目录。
  3. 代码编写页面,编写建表及向表中写入数据的SQL语句。
    CREATE TABLE IF NOT EXISTS `demo_id_mapping`
    (
      key_type string,
      key_id string,
      oneid string)
    partitioned by (ds string);
    insert into table demo_id_mapping PARTITION (ds ='${bizdate}')
    select 'UserID', '1001', '001' union all
    select 'UserID', '1002', '002' union all
    select 'UserID', '1003', '003' union all
    select 'UserID', '1004', '004' union all
    select 'UserID', '1005', '005' union all
    select 'Email', 'bochao1@hotmail.com', '001' union all
    select 'Email', 'zjud0212@qq.com', '002' union all
    select 'Email', 'never3@gmail.com', '003' union all
    select 'Email', 'info64@163.com', '004' union all
    select 'Email', '77228935@outlook.com', '005' union all
    select 'Mobile', '15270159931', '001' union all
    select 'Mobile', '18170159522', '002' union all
    select 'Mobile', '13589374673', '003' union all
    select 'Mobile', '17109872784', '004' union all
    select 'Mobile', '15300782675', '005';
  4. 单击页面右上方的执行,执行编写的建表语句。
  5. 配置调度参数。
    1. 单击页面上方的调度配置
    2. 根据页面提示配置依赖关系区域参数,其余参数均保持默认值。调度配置的更多内容,请参见调度配置
      faga
      参数 描述
      上游依赖 通过执行如下操作,完成添加该节点任务调度时依赖的上游节点:
      1. 单击新建上游依赖
      2. 新建上游依赖对话框中,输入virtual搜索步骤一中创建的虚拟节点。
        说明 节点的输出名称是全局唯一的,且不区分大小写。
      3. 单击确定新增
      当前节点 通过执行如下操作,设置当前节点的输出名称:
      1. 单击新增
      2. 新增当前节点输出对话框中,填写输出名称为Data_distill.demo_id_mapping
      3. 单击确定新增
      同时您还可以单击操作列下的fagaga图标,删除已添加的输出名称。
    3. 单击确定,完成调度配置。
  6. 单击页面右上的fagag图标,完成ID倒排表(demo_id_mapping)的保存。
  7. 单击页面右上方的fagag图标,完成ID倒排表(demo_id_mapping)的提交,提交后的ID倒排表(demo_id_mapping)就可以参与调度。
    提交成功后,您可以在调度配置当前节点区域,单击操作列下的图标,查看已添加的输出名称的下游节点。