完成规则统计标签基本信息配置后,您需要为规则统计标签配置数据来源、标签值,及配置规则统计标签的调度周期和存储生命周期,后续可以测试规则统计标签并查看标签报告。本文为您介绍如何配置、测试规则统计标签、查看标签报告及提交规则统计标签至生产环境。

前提条件

注意事项

在您开始创建规则统计标签前,需要了解创建规则统计标签的场景,以引导您快速完成规则统计标签的创建。创建规则统计标签的场景说明,请参见场景3:基于已打过标签的数据,筛选出需要再次打标的对象,并自定义对象新的标签

操作流程

配置规则统计标签的取数逻辑及标签值的计算规则

  1. 完成步骤一:创建规则统计标签后,默认进入新建标签页面。在新建标签页面,配置筛选待打标对象的规则,并为待打标对象配置标签值。
    1. STEP 1区域,选择筛选来源数据的方式。
      圈选方式指Dataphin筛选待打标对象的方式,包括按行为圈选按标签圈选
    2. STEP 1区域,单击开始配置
    3. 新建标签的页面右侧的数据来源配置页签,配置来源数据后,单击下一步
      不同场景的数据来源配置参数不同,说明如下:
      • 场景1:基于用户行为数据,筛选出需要打标的用户,并自定义用户的标签场景2:基于用户行为数据,筛选出需要打标的用户,并配置行为属性的统计值为用户的标签gaga
        参数 描述
        行为筛选 行为筛选用于筛选行为数据统计的范围,即筛选到具体的行为规则。行为筛选需要依次选择行为域、业务线和动作和对象。

        选择某个行为域后,只能选择该行为域下的业务线。选择了业务线后,只能选择该业务线下的单个或多个行为规则。

        例如,选择电商行为域下的淘宝业务线,选择淘宝业务线下的浏览商品、购买商品和收藏商品的行为规则。

        如果您还没有行为规则,则需要提前完成行为规则的创建。

        按共有行为属性过滤 基于已筛选的行为规则,配置行为规则的共有行为属性,以进一步筛选行为主体。Dataphin最多支持配置3个共有行为属性规则。每个行为属性规则均需要配置行为属性、筛选条件和筛选值。
        • 配置单个行为属性过滤规则:
          1. 筛选行为属性。

            行为属性的下拉列表中,展示了已筛选的行为规则配置的行为属性。例如,已筛选的行为规则配置了金额、发生次数的行为属性,则在共有属性下拉列表中仅展示金额和发生次数。

          2. 选择筛选条件。筛选条件包括=、!=、>、>=、<、<=、介于、非介于、精确匹配、精确排除、模糊匹配和不为空。

            筛选条件对应的SQL语句,请参见表 1

          3. 根据行为属性和筛选条件配置筛选值。筛选值说明如下:
            • >、>=、<、<=、介于、非介于的筛选值必须配置为数值类型。
            • !=、=、精确匹配、精确排除和模糊匹配的筛选条件对应的筛选值的数据类型没有限制,Dataphin会根据您配置筛选值的数据类型,自动转换行为规则输出表(oi_behavior_detail_d)中对应字段的数据类型,以实现筛选值与行为规则输出表的数据进行对比,筛选出符合行为属性过滤规则的行为主体。
            • 不为空的筛选条件,无需配置筛选值。
          例如,共有行为属性的金额介于0~800。
        • 配置多个行为属性过滤规则:
          1. 完成单个行为属性过滤后,单击新增行为属性
          2. 行为属性过滤规则间的逻辑关系默认为。单击,选择行为属性间的运算逻辑,并完成新增行为属性过滤规则的配置。

            运算逻辑包括且、或和排除。如果是3个共有行为属性过滤规则,则前两个行为属性过滤规则先计算,运算结果再与下一条共有行为属性过滤规则进行计算。

            例如,在时间精确匹配2020年5月21日的行为数据范围内,筛选到金额小于800的行为数据为下图最终筛选到的行为数据。gagag
            例如,下图的最终筛选到的行为数据包括时间精确匹配2020年5月21日的行为数据和金额小于800的行为数据。gagag
            例如,在时间精确匹配2020年5月21日的行为数据范围内,排除金额小于800的行为数据为下图最终筛选到的行为数据。gaga
        按共有对象属性筛选 基于已筛选的行为规则,配置行为规则的共有对象属性,以进一步筛选行为主体。Dataphin最多支持配置3个共有对象属性规则。每个对象属性规则均需要配置对象属性、筛选条件和筛选值:
        • 配置单个对象属性筛选规则:
          1. 筛选对象属性。

            对象属性的下拉列表中,展示了已筛选的行为规则配置的对象属性。例如,已筛选的行为规则配置了价格和类目的对象属性,则在共有属性下拉列表中仅展示价格和类目。

          2. 选择筛选条件。筛选条件包括=、!=、>、>=、<、<=、介于、非介于、精确匹配、精确排除、模糊匹配和不为空。

            筛选条件对应的SQL语句,请参见表 1

          3. 根据对象属性和筛选条件配置筛选值。筛选值说明如下:
            • >、>=、<、<=、介于、非介于的筛选值必须配置为数值类型。
            • !=、=、精确匹配、精确排除和模糊匹配的筛选条件对应的筛选值的数据类型没有限制,Dataphin会根据您配置筛选值的数据类型,自动转换行为规则输出表(oi_behavior_detail_d)中对应字段的数据类型,以实现筛选值与行为规则输出表的数据进行对比,筛选出符合对象属性筛选规则的行为主体。
            • 不为空的筛选条件,无需配置筛选值。
          例如,共有对象属性的商品类目精确匹配为女装。
        • 配置多个对象属性筛选规则:
          1. 完成单个对象属性筛选后,单击新增对象属性
          2. 对象属性筛选规则间的逻辑关系默认为。单击,选择对象属性间的运算逻辑,并完成新增对象属性筛选规则的配置。

            运算逻辑包括且、或和排除。如果配置了3个共有对象属性筛选规则,则系统的运算前两个对象属性筛选规则先计算,运算结果再与下一条对象属性筛选规则进行计算。

      • 场景说明gagag
        参数 描述
        按标签圈选 按标签数据筛选出再次需要打标的对象。Dataphin最多支持配置3个筛选规则。每个筛选规则均需要配置标签、筛选条件和筛选值。
        • 配置单个筛选规则:
          1. 筛选标签。

            标签的下拉列表中,展示了Dataphin内所有的规则统计标签和注册上挂标签。

          2. 选择筛选条件。筛选条件包括=、!=、>、>=、<、<=、介于、非介于、精确匹配、精确排除、模糊匹配和不为空。

            筛选条件对应的SQL语句,请参见表 1

          3. 根据标签和筛选条件配置筛选值。筛选值说明如下:
            • >、>=、<、<=、介于、非介于的筛选值必须配置为数值类型。
            • !=、=、精确匹配、精确排除和模糊匹配的筛选条件对应的筛选值的数据类型没有限制,Dataphin会根据您配置筛选值的数据类型,自动转换标签结果表中对应字段的数据类型,以实现筛选值与标签结果表的数据进行对比,筛选出符合筛选规则的对象。
            • 不为空的筛选条件,无需配置筛选值。
          例如,注册商品分类标签精确匹配到女装。
        • 配置多个标签筛选规则:
          1. 完成单个标签筛选规则配置后,单击新增标签
          2. 标签筛选规则间的逻辑关系默认为。单击,选择标签间的运算逻辑,并完成新增标签筛选规则的配置。

            运算逻辑包括且、或和排除。如果是3个标签筛选规则,则前两个标签筛选规则先计算,运算结果再与下一条共有标签筛选规则进行计算。

        例如,下图最终筛选到的标签数据,包括商品分类标签精确匹配到坚果的标签数据和注册商品分类标签精准匹配到女装的标签数据。faga
        例如,在注册商品分类标签精确匹配到生活用品的标签数据范围内,筛选到商品分类标签精准匹配到女装的标签数据为下图最终筛选到的标签数据。faga
        例如,下图最终筛选到的标签数据为在注册商品分类标签精确匹配到生活用品的标签数据范围内,排除注册商品分类为女装的标签数据。fagag
      表 1. 筛选条件对应的SQL语法
      筛选条件 对应SQL语句 示例
      = = '' = '80'
      != != '' != '80'
      > '' > '80'
      >= >= '' >= '80'
      < '' < '80'
      <= <= '' <= '80'
      精确匹配 in '' in 'name'
      模糊匹配 like '%%' like '%name%'
      精确排除 not in '' not in 'name'
      介于 between '' and '' between '1' and '100'
      非介于 not between '' and '' not between '1' and '100'
      不为空 is not null
    4. 标签值配置页签,为筛选到的待打标对象配置标签值,并单击确定
      不同场景的标签值配置参数不同,说明如下:
  2. 新建标签页面,配置筛选行为或标签数据的时间范围。
    1. STEP 2区域,单击gagag图标。
    2. STEP 2区域,Dataphin默认时间跨度为30天。您也可以单击时间跨度哈哈哈图标,修改时间跨度。
    3. 新建标签页面右侧的时间跨度配置区域,配置时间跨度,单击确定
      Dataphin支持配置的时间跨度为30天、60天、90天、180天、365天。

配置规则统计标签的调度参数及标签输出表的存储生命周期

  1. 新建标签页面,单击页面上方的调度配置。在调度配置面板,配置参数。
    1. 配置基本信息区域的参数。
      fagag
      说明 Dataphin自动生成名称、节点ID和节点类型的参数,不支持修改。
      参数 描述
      负责人 支持转交负责人。当任务运行报错时,Dataphin会及时通知到该任务的负责人,便于您及时处理异常。

      负责人其他的操作权限取决于负责人的角色。关于角色对应的操作权限的信息,请参见数据萃取权限列表

      描述 支持修改规则统计标签已有的描述,也支持为标签添加描述。
    2. 配置调度配置区域的参数。
      agag
      参数 描述
      时间属性 选择任务在生产环境调度的时间属性。时间属性包括正常调度和空跑调度:
      • 正常调度:按照调度周期的时间配置调度,并正常执行,通常任务默认选中该项。
      • 空跑调度:按照调度周期的时间配置调度,但都是空跑执行,即一调度到该任务便直接返回成功,没有真正的执行任务。
      适用场景说明如下:
      • 正常调度:适用于任务需要正常调度以产出数据的场景。
      • 空跑调度:适用于任务有段时间不需要产出数据,但不能阻塞下游任务执行的场景。
      暂停调度 即可暂停该任务及该任务的下游任务的调度,一旦调度到该任务会直接返回失败,不会执行。通常用于某个任务暂时不用执行,但后面还会继续使用的场景。
      调度周期 调度周期可选择:,您可以根据业务需要,指定任务运行的具体时间点。调度周期说明如下:
      • 调度,即调度任务每天自动运行一次。新建周期任务时,默认的时间周期为每天0点运行一次。
      • 调度,即调度任务每周的特定几天,在特定时间点自动运行一次。
      • 调度,即调度任务在每月的特定几天,在特定时间点自动运行一次。
      说明 调度和调度中,如果您没有指定任务的运行日期,为保证下游实例正常运行,Dataphin会每天生成实例后直接设置为运行成功,而不会真正执行任何逻辑,也不会占用资源。
      优先级 优先级定义了同一时间待调度任务的优先级。默认选择为中等优先级。您可以根据业务需求修改任务调度的优先级。Dataphin支持的优先级包括最低优先级、低优先级、中等优先级、高优先级和最高优先级。
    3. 配置依赖关系区域的参数,并单击确定
      gagag
      参数 描述
      上游依赖 您可以通过自动解析和手动添加两种方式,为规则统计标签节点添加上游依赖的节点:
      • 单击自动解析,自动解析根据标签选择的圈选方式不同,自动解析到的节点也不同:
        • 圈选方式选择为按行为圈选,则Dataphin仅支持自动解析出标签中已选择行为规的输出物理节点。输出名称格式为oi_behavior_detail_d_行为规则IDgagag
        • 圈选方式选择为按标签圈选,则Dataphin仅支持自动解析出标签中已选择标签的输出物理节点。gagaga
      • 基于业务场景,如果需要添加其他节点作为当前规则统计标签的上游节点,则需要手动添加上游依赖的物理节点。
        注意 Dataphin不支持手动添加逻辑表节点。

        单击新增上游依赖,在新建上游依赖对话框中,输入所依赖节点的输出名称的关键字进行搜索节点,搜索到后单击确定新增

      当前节点 当前节点为您展示规则统计标签的数据输出的物理节点。当前节点名称即规则统计标签结果表名称,规则统计标签名称的格式为Data_Distill_结果表名,不支持修改。

      关于标签结果表的结构、数据预览等信息,请参见物理表详情

      如果规则统计标签已提交且被其他任务所依赖,则单击操作列下的图标,可以查看输出节点的下游节点。

  2. 新建标签页面,单击页面上方的物化配置。在物化配置面板,配置规则统计标签的存储生命周期后,单击确认
    fagag
    参数 描述
    存储生命周期 存储生命周期用于定义规则统计标签在Dataphin的生命周期。存储生命周期对所有的规则统计标签生效,默认3650天,无最大限制。
    注意 仅超级管理员支持修改存储生命周期。
    选择分区字段 Dataphin默认展示ds,不支持修改。

测试规则统计标签并查看标签报告

  1. 在新建规则统计标签页面,按照下图操作,测试运行规则统计标签。
    gagag
  2. 测试成功后,单击查看标签报告
    gagag
  3. 在标签报告页面,查看标签的基本信息、数据来源、标签分布及结果表数据抽样。
    根据打标方式不同,生成的标签报告也不同,详细说明如下:
    • 指定枚举值gagaga
    • 指定统计值gagag

提交规则统计标签至生产环境

在新建规则统计标签页面,按照下图操作指引,提交规则统计标签至生产环境。gagaga

后续步骤

  1. 在运维中心查看并运维规则统计标签的萃取任务。如何查看并运维萃取任务,请参见萃取任务
  2. 查看并运维规则统计标签的萃取实例。如何查看并运维萃取实例,请参见萃取实例
  3. 当规则统计标签的萃取实例的运行状态为成功时,您可以通过即席查询,查询业务数据(即规则统计标签结果表)的产出情况,如下图所示。fagag如何通过即席查询查看业务数据的产出情况,请参见查询并下载数据