Modularity是一种评估社区网络结构的指标,用来评估网络结构中划分出来社区的紧密程度,通常0.3以上是比较明显的社区结构。本文为您介绍PAI-Studio提供的Modularity组件。

PAI-Studio支持通过可视化或PAI命令方式,配置Modularity组件的参数。

可视化方式

页签 参数 描述
字段设置 源顶点列 边表的起点所在列。
起始点标签列 边表起点的群组。
目标顶点列 边表的终点所在列。
目标点标签列 边表终点的群组。
执行调优 进程数 作业并行执行的节点数。数字越大并行度越高,但框架通讯开销框架通讯开销是什么意思会增大。
进程内存 单个作业可使用的最大内存量。系统默认为每个作业分配4096 MB内存,实际使用内存超过该值,会抛出OutOfMemory异常。

PAI命令方式

PAI -name Modularity
    -project algo_public
    -DinputEdgeTableName=Modularity_func_test_edge
    -DfromVertexCol=flow_out_id
    -DfromGroupCol=group_out_id
    -DtoVertexCol=flow_in_id
    -DtoGroupCol=group_in_id
    -DoutputTableName=Modularity_func_test_result;
参数 是否必选 描述 默认值
inputEdgeTableName 输入边表名。
inputEdgeTablePartitions 输入边表的分区。 全表读入
fromVertexCol 输入边表的起点所在列。
fromGroupCol 输入边表起点的群组。
toVertexCol 输入边表的终点所在列。
toGroupCol 输入边表终点的群组。
outputTableName 输出表名。
outputTablePartitions 输出表的分区。
lifecycle 输出表的生命周期。
workerNum 作业并行执行的节点数。数字越大并行度越高,但框架通讯开销框架通讯开销是什么意思会增大。 未设置
workerMem 单个作业可使用的最大内存量。系统默认为每个作业分配4096 MB内存,实际使用内存超过该值,会抛出OutOfMemory异常。 4096
splitSize 数据切分大小。 64

使用示例

  1. 生成训练数据。

    与标签传播聚类算法的数据类似,详情请参见标签传播聚类

  2. 查看训练结果。
    +--------------+
    | val          |
    +--------------+
    | 0.4230769    |
    +--------------+