大模型数据处理组件聚合成组

大模型数据处理DLC算法组件支持聚合成组与资源优化,可实现高效的数据处理和资源利用。其创新之处在于支持批量任务执行,减少不必要的数据存储操作,从而显著提升性能表现。

简介

大模型数据处理算法组件由多个DLC/MaxCompute组件组成。其中,DLC组件不仅具备普通组件的功能,还支持聚合成组的操作。通过对组进行资源配置,成组后的DLC节点在运行时能够批量执行任务,并避免中间数据落盘,从而提升执行效率和资源利用率。

Designer中,支持聚合成组的大模型数据处理DLC组件如下:

image

重要

当前在大模型数据处理/LLM数据处理(DLC)目录下的LLM-毒性检测与清洗(DLC)和LLM-文本质量打分(DLC)组件不支持聚合成组。

注意事项

当组件聚合成组后,需注意以下事项:

  • 配置优先级:组的配置优先级高于组内每个节点的单独配置。

  • 组件聚合限制:当前在大模型数据处理/LLM数据处理(DLC)目录下的LLM-毒性检测与清洗(DLC)LLM-文本质量打分(DLC)组件不支持聚合成组。

  • 参数配置:每个组件的调优参数需要在单个组件内进行配置,而全局字段则应在组设置中进行配置。全局字段包括文本字段、图像字段、视频字段,以及计算资源和数据输出路径等,这些无需在组件内单独配置。

  • 多节点分布式运行支持:部分组件不支持多节点分布式运行。如果组中包含不支持多节点的组件,启动多节点任务将会失败。在这种情况下,需要将该组件从组中移除或使用单节点运行该组。要确认组件是否支持多节点分布式运行,可以检查该组件的执行调优界面:如果节点数量可以修改为大于1的数值,则该组件支持多节点分布式运行。

    image

  • 输出结果:组内的单个组件不会单独输出结果。组内每个组件的输出结果均为整个组的输出。例如,下图显示了从组中间拉出一条工作流连接到下游,在这种情况下,中间组件(LLM-文本标准化)的输出是LLM-文本标准化和LLM-特殊内容移除两个组件处理后的结果,而不是仅仅LLM-文本标准化处理后的结果。

    image

聚合成组

智能聚合

当系统检测到画布中有可以成组运行的节点时,您可以单击画布上方的image进行聚合,然后单击image,对组进行资源配置。

image

手动聚合

您也可以单击画布上方的image或通过Shift+鼠标左键,选择多个大模型数据处理DLC节点,在空白处单击右键,选择选中节点成组,然后单击image,对组进行资源配置。

image

相关文档