文档

LLM大语言模型端到端链路-DLC组件:数据处理+模型训练+模型推理

更新时间:

LLM数据处理算法提供了对数据样本进行编辑和转换、过滤低质量样本、识别和删除重复样本等功能。您可以根据实际需求组合不同的算法,从而过滤出合适的数据并生成符合要求的文本,方便为后续的LLM训练提供优质的数据。本文通过LLM大语言模型端到端链路模板,为您介绍数据处理、模型训练和模型推理的全流程。

数据集说明

本文Designer中“LLM大语言模型端到端链路-DLC组件:数据处理+模型训练+模型推理”预置模板用的数据集需遵循问答对格式,即包含问题字段instruction和答案字段output

image

创建并运行工作流

  1. 进入Designer页面。

    1. 登录PAI控制台

    2. 在顶部左上角根据实际情况选择地域。

    3. 在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间。

    4. 在左侧导航栏选择模型开发与训练 > 可视化建模(Designer),进入Designer页面。

  2. 创建工作流。

    1. 预置模板页签下,选择业务领域 > LLM 大语言模型,单击LLM大语言模型端到端链路-DLC组件:数据处理+模型训练+模型推理模板卡片上的创建

      image

    2. 配置工作流参数(或保持默认),单击确定

    3. 在工作流列表,选择已创建的工作流,单击进入工作流

  3. 工作流说明:

    image

    工作流中关键算法组件说明:

    • LLM-文本标准化(DLC)-1/LLM-文本标准化(DLC)-2

      分别将“instruction”和“output”字段中的文本进行Unicode标准化处理,同时将繁体转简体。

    • LLM-敏感信息打码(DLC)-1/LLM-敏感信息打码(DLC)-2

      分别将“instruction”和“output”字段中的敏感信息打码。例如:

      • 将邮箱地址字符替换成[EMAIL]

      • 将手机电话号码替换成[TELEPHONE][MOBILEPHONE]

      • 将身份证号码替换成IDNUM

    • LLM模型训练

      根据选择的模型及对应训练方式进行模型训练。模型来源于PAI-QuickStart中,底层计算基于DLC容器任务。训练方式需和模型对应,各模型支持的训练方式如下:

      • qwen-7b:支持QLoRA、全参微调。

      • qwen-7b-chat:支持QLoRA、全参微调。

      • qwen-1_8b-chat:支持QLoRA。

      • llama-2-7b:支持QLoRA、全参微调。

      • llama-2-7b-chat:支持QLoRA、全参微调。

      • baichuan2-7b-base:支持QLoRA、LoRA、全参微调。

      • baichuan2-7b-chat:支持QLoRA、LoRA、全参微调。

      • chatglm3-6b:支持QLoRA、LoRA。

    • LLM模型离线推理

      根据选择的模型进行离线推理。

  4. 运行工作流。

    运行结束后,右键单击LLM模型离线推理组件,选择查看数据 > 推理结果保存目录(OSS),查看推理结果。

    image

更多应用

您也可以使用经过相同预处理的数据,同时针对多个模型进行训练和推理。例如,构建如下工作流并行地对qwen-7b-chat和llama2-7b-chat两个模型进行微调,然后使用同一批测试数据来比较它们推理后生成的结果。

image

相关参考