LLM大语言模型端到端链路:数据处理+模型训练+模型推理

本文介绍如何使用PAI提供的LLM大语言模型数据处理组件、训练组件和推理组件,端到端完成大模型的开发和使用。

前提条件

数据集

输入的训练数据需遵循问答对格式,包含以下两个字段:

  • instruction:问题字段。

  • output:答案字段。

示例如下:

image.png

如果您的数据字段名不符合要求,可以提前通过自定义SQL脚本等方式进行预处理。如果您的数据直接来自互联网,可能存在数据冗余或脏数据,可以利用LLM数据预处理组件进行初步清洗和整理。具体操作,请参见LLM大语言模型数据处理 - github code

使用流程

  1. 进入Designer页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应的工作空间。

    3. 在工作空间页面的左侧导航栏选择模型开发与训练 > 可视化建模(Designer),进入Designer页面。

  2. 构建工作流。

    1. Designer页面,单击预置模板页签。

    2. LLM大语言模型页签的LLM大语言模型端到端链路:数据处理+模型训练+模型推理区域中,单击创建

    3. 新建工作流对话框中,配置参数(可以全部使用默认参数),然后单击确定

      其中:工作流数据存储配置为OSS Bucket路径,用于存储工作流运行中产出的临时数据和模型。

    4. 在工作流列表中,双击目标工作流,进入工作流。

    5. 系统根据预置的模板,自动构建工作流,如下图所示。image

      区域

      描述

      进行简单的数据预处理,仅供端到端链路演示使用。更详细的数据预处理流程,请参见LLM大语言模型数据处理 - github code

      进行模型训练和离线推理。其中:

      • LLM模型训练组件

        该组件封装了快速开始(QuickStart)提供的LLM模型,底层计算基于DLC容器任务。单击该组件,在右侧的字段设置页签可以选择模型名称。该组件支持多种主流的LLM模型,在本工作流程中,选择使用qwen-7b-chat模型进行示例训练。

      • LLM模型离线推理组件

        使用该组件进行离线推理。在本工作流程中,选择使用qwen-7b-chat模型进行离线批量推理。

  3. 单击画布上方的运行按钮image,运行工作流。

  4. 工作流成功运行后,右键单击LLM模型离线推理-1组件,在快捷菜单中选择查看数据 > 推理结果保存目录(OSS),查看推理结果。

后续步骤

您还可以使用经过相同预处理的数据,同时针对多个模型进行训练和推理。例如,构建如下工作流来并行地对qwen-7b-chatllama2-7b-chat两个模型进行微调,然后使用同一批测试数据来比较它们推理后生成的结果。

image