为了提升实验运行效率,PAI-Studio2.0支持将画布中的多个Alink节点合并为组,进行批量执行。同时,PAI-Studio2.0提供Alink智能聚合工具,可以自动检测画布中可以成组运行的Alink节点。

背景信息

Alink是阿里云机器学习PAI团队基于实时计算Flink研发的新一代机器学习算法框架及组件库。在PAI-Studio2.0中会上线Alink流式和批式算法组件,从而支持开发者基于Flink引擎进行数据预处理、特征工程、模型训练、模型预测的机器学习全流程。

在PAI-Studio2.0操作界面,您可以在组件列表看到带有紫色点标的算法组件(如下图所示),即Alink框架的算法组件。Alink组件系统支持将画布中的Alink节点成组,进行批量执行,以提升执行效率及资源利用率,详情请参见Alink组件成组。此外,系统也支持自动检测画布中可以成组的Alink节点,详情请参见Alink智能聚合

Alink组件成组

Alink组件与其他框架的组件在基础使用上没有差别。此外,基于Flink在内存中进行数据交换的高性能执行方式,PAI-Studio2.0提供了Alink节点组合的批量执行方式,即Alink组件成组执行。

您可以通过Group概念自由组织已经拖入画布中的Alink组件,具体操作方式如下:
  • 在PAI-Studio2.0的画布上选择多个Alink节点。

    您可以通过shift+鼠标左键,或画布上方的框选框选工具工具选择多个Alink节点。

  • 单击鼠标右键,在弹出的快捷菜单中,单击选中节点Alink成组
    画布中成组的Alink节点会通过虚线圆角矩形框显示为一组,如下图所示。成组展示

对于Alink组,您可以单击右上方的设置图标,为其设置运行的Worker数量每个Worker占用的内存。Alink组的配置优先级高于Alink组中每个Alink节点的单独配置。成组后的Alink节点会批量执行,中间数据不落盘,从而提升执行效率及资源利用率。

Alink智能聚合

Alink智能聚合是指系统自动检测画布中可以成组运行的Alink节点,并将其成组,以减少中间数据传输开销,提升资源利用效率,帮助您在实验运行时提升执行效率。

PAI-Studio2.0画布上方的工具栏中,提供Alink智能聚合工具智能聚合,您可以快速开启Alink智能聚合功能。