树深度

树深度是指决策树模型中从根节点到最深叶节点的最长路径上的节点数。树深度是一个重要的超参数,它直接影响模型的复杂度和拟合能力。较深的树可以捕捉更多的数据模式,但也更容易导致过拟合;较浅的树则可能欠拟合数据。因此选择适当的树深度对于模型的性能和泛化能力非常重要。

配置组件

方法一:可视化方式

Designer工作流页面添加树深度组件,并在界面右侧配置相关参数:

参数类型

参数

描述

字段设置

输入边表的起点所在列

边表的起点所在列。

输入边表的终点所在列

边表的终点所在列。

执行调优

进程数量

作业并行执行的节点数。数字越大并行度越高,但是框架通讯开销会增大。

进程内存

单个作业可使用的最大内存量,单位:MB,默认值为4096。

如果实际使用内存超过该值,会抛出OutOfMemory异常。

数据切分大小

数据切分的大小,单位:MB,默认值为64。

方法二:PAI命令方式

使用PAI命令配置树深度组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见场景4:在SQL脚本组件中执行PAI命令

PAI -name TreeDepth
    -project algo_public
    -DinputEdgeTableName=TreeDepth_func_test_edge
    -DfromVertexCol=flow_out_id
    -DtoVertexCol=flow_in_id
    -DoutputTableName=TreeDepth_func_test_result;

参数

是否必选

默认值

描述

inputEdgeTableName

输入边表名。

inputEdgeTablePartitions

全表读入

输入边表的分区。

fromVertexCol

输入边表的起点所在列。

toVertexCol

输入边表的终点所在列。

outputTableName

输出表名。

outputTablePartitions

输出表的分区。

lifecycle

输出表的生命周期。

workerNum

未设置

作业并行执行的节点数。数字越大并行度越高,但是框架通讯开销会增大。

workerMem

4096

单个作业可使用的最大内存量,单位:MB,默认值为4096。

如果实际使用内存超过该值,会抛出OutOfMemory异常。

splitSize

64

数据切分大小。

使用示例

  1. 添加SQL脚本组件,去勾选使用Script模式是否由系统添加Create Table语句,并在SQL脚本中输入以下SQL语句。

    drop table if exists TreeDepth_func_test_edge;
    create table TreeDepth_func_test_edge as
    select * from
    (
        select '0' as flow_out_id, '1' as flow_in_id
        union all
        select '0' as flow_out_id, '2' as flow_in_id
        union all
        select '1' as flow_out_id, '3' as flow_in_id
        union all
        select '1' as flow_out_id, '4' as flow_in_id
        union all
        select '2' as flow_out_id, '4' as flow_in_id
        union all
        select '2' as flow_out_id, '5' as flow_in_id
        union all
        select '4' as flow_out_id, '6' as flow_in_id
        union all
        select 'a' as flow_out_id, 'b' as flow_in_id
        union all
        select 'a' as flow_out_id, 'c' as flow_in_id
        union all
        select 'c' as flow_out_id, 'd' as flow_in_id
        union all
        select 'c' as flow_out_id, 'e' as flow_in_id
    )tmp;
    drop table if exists TreeDepth_func_test_result;
    create table TreeDepth_func_test_result
    (
      node string,
      root string,
      depth bigint
    );

    对应的数据结构图:

    图结构

  2. 添加SQL脚本组件,去勾选使用Script模式是否由系统添加Create Table语句,在SQL脚本中输入以下PAI命令,并将步骤 1和步骤 2的组件进行连线。

    drop table if exists ${o1};
    PAI -name TreeDepth
        -project algo_public
        -DinputEdgeTableName=TreeDepth_func_test_edge
        -DfromVertexCol=flow_out_id
        -DtoVertexCol=flow_in_id
        -DoutputTableName=${o1};
  3. 单击左上角image,运行工作流。

  4. 待运行结束,右键单击步骤 2的组件,选择查看数据 > SQL脚本的输出,查看训练结果。

    | node | root | depth |
    | ---- | ---- | ----- |
    | a    | a    | 0     |
    | b    | a    | 1     |
    | c    | a    | 1     |
    | d    | a    | 2     |
    | e    | a    | 2     |
    | 0    | 0    | 0     |
    | 1    | 0    | 1     |
    | 2    | 0    | 1     |
    | 3    | 0    | 2     |
    | 4    | 0    | 2     |
    | 5    | 0    | 2     |
    | 6    | 0    | 3     |