基于ComfyUI-FLUX的数据集打标和模型训练

更新时间:
复制为 MD 格式

实验简介

  • 本指南详细介绍了如何通过LoRA(Low-Rank Adaptation)技术对Flux基础模型进行微调训练,使用户能够创建具有统一风格特征的个性化AI图像生成模型。文档面向设计师、AI艺术创作者和数字内容生产者,提供了从零开始的完整训练流程。

  • 内容涵盖高质量数据集构建的关键要点,包括图像筛选标准、尺寸规范(1024×1024/1536×1024/1024×1536像素)和数量建议(20-30张);详细演示了使用ComfyUI工具进行图像智能打标的完整工作流;并逐步指导如何通过Kohya专享版工具进行模型训练,包括参数配置(network rank、alpha值设定)、触发词设置和训练步数计算等核心技术细节。

  • 通过本教程,创作者无需编程基础即可掌握定制专属AI模型的能力,无论是打造个人艺术风格、品牌视觉系统,还是创建特定主题(如植物、空间设计、非遗元素)的生成模型,都能实现高度一致且专业的视觉输出。训练完成的LoRA模型可直接部署至主流AI绘画平台,为创意工作流注入个性化AI能力。

  • 这份实操指南将技术细节与艺术创作需求紧密结合,是设计师和内容创作者进入AI定制化模型训练领域的理想入门资源,帮助用户从被动使用通用模型转变为主动塑造专属AI创作伙伴。

实验室资源方式简介

进入实操前,请确保阿里云账号满足以下条件:

  • 个人账号资源

    • 使用您个人的云资源进行操作,资源归属于个人。

    • 平台仅提供手册参考,不会对资源做任何操作。

  • 确保已完成云工开物300元代金券领取。

  • 已通过实名认证且账户余额≥0元。

如果您调整了资源规格,使用时长,或执行了本方案以外的操作,可能导致费用发生变化,请以控制台显示的实际价格和最终账单为准。

领取专属权益及开通授权

在开始实验之前,请先点击右侧屏幕的“进入实操”再进行后续操作

image

第一步:本次实验需要您通过领取阿里云云工开物学生专属300元抵扣券兑换本次实操的云资源,如未领取请先点击领取。(若已领取请跳过)

image

重要

实验产生的费用优先使用优惠券,优惠券使用完毕后需您自行承担。

学生认证

第二步:进入并开通PAI ArtLab并授权

  • 点击访问PAI ArtLab平台

  • 初次进入平台,依次点击两步,完成PAI ArtLab平台开通与授权

    image.pngimage.png

实验步骤

一、素材收集

  1. 图像收集

    为了实现风格一致的设计内容生成,本实验首先需要构建一个高质量的图像数据集,用于训练基于 Flux 的LoRA模型。数据收集应遵循以下要求:

    • 图像类型与风格要求

      • 图像应拥有统一的特征,如植物、公园、品牌、空间类型、某类非遗元素、人物形象、ip形象、视觉特征等。

      • 建议选择和专业相关的图像集。

      • 图像中不存在文字/水印/logo等干扰因素。

      • 从个人角度出发,图像应该具备“美”的特征或者具备其他特色。

    • 图像尺寸

      • FLUX LoRA建议使用高分辨率图像进行训练,所有图片应统一裁切或缩放为1024×1024/1536×1024/1024×1536 像素区间的图像

      • 如原图不为正方形,请通过居中裁剪或背景填充的方式处理,保持图像完整性。

    • 图像数量

      • 建议每个主题收集20-30张高质量图片。

二、数据集准备

  1. 创建数据集

    • 左导航选择数据集,点击‘立即创建

      image.png

    • 数据集命名,给数据集起任意名称,方便自己后续分辨不同数据集(*命名需要用字母开头,一经命名后续无法修改进行重命名)

      image.png

    • 命名后,数据集就创建好了image.png

  2. 上传数据集文件

    上传数据集文件有两种情况

    情况一:有打标好的数据集图像

    情况二:无打标好的数据集图像,需要借助工具来给图像打标

    • 情况一:有打标好的数据集图像,如何上传

      • 点击创建好的数据集卡片

        image.png

      • 进入到此数据集

        image.png

      • 本地准备可以直接用于进行模型训练的,已经打好标的图像文件夹,并且严格遵照‘数字_任意名称’,这个格式来命名文件夹

        image.png

      • 将文件夹,拖拽到数据集里面上传,即可image.png

    • 情况一:情况二:没打标好的数据集图像,需要接下来借助平台工具来打标,该如何上传

      • 上传打标图像

        • 本地准备好需要进行打标的图片(*这里需要注意,图片比例尽可能一致,如1:1、16:9等等)

          image.jpeg

        • 将这些图片,拖拽到数据集里面上传(*这里注意,不要传文件夹到数据集里面,是直接上传所有图片到数据集里面)

          image.png

        • 需要打标的图片就上传完毕了image.jpeg

      • 建立打标图像存储数据集与文件夹

        • 额外我们还需要再创建一个数据集,用来存储打标好的图像,并且可以直接用于做模型训练。点击‘+新建数据集’

          image.jpeg

        • 数据集命名,给数据集起任意名称,方便自己后续分辨不同数据集(*命名需要用字母开头,一经命名后续无法修改进行重命名

          创建好了,点击创建好的数据集卡片

          image.jpeg

        • 进入数据集

          image.png

        • 点击‘+新建文件夹

          image.png

        • 给文件夹命名,这里需要注意,文件夹命名格式,需要严格遵照,‘数字_任意名称’,这个格式,例:‘10_a1

          image.png

        • 创建好了image.png

          说明

          这里补充一些知识点

          • 为什么用于训练的数据集文件夹需要严格遵照,‘数字_任意名称’,这个格式来命名

            • 首先,这个格式,是kohya工具对训练数据集的要求

          • 其次,以一个30张的数据集为例,简单讲一下这里涉及的知识点

            • 模型训练总步数公式:模型训练总步数图片数量 * repeat 数量 * epoch / batch_size

            • 模型训练总步数:控制在3000-4000步实现比较基础成型的效果。

            • repeat值:数据集文件夹,‘数字_任意名称’,这里的数字,代表的是训练时的repeat值,这个repeat值,是在数据集文件夹命名时候赋予好的,代表训练工具会读取多少次这个图像。

            • epoch值:整个数据集被完整的训练多少轮,并且与lora产出有关

            • 常见训练数值:repeat:10-15,epoch:10-15,来训练

            • 如果我们将数据集命名为10_a2,epoch设置为1030(图片数)*10(repeat值)*15(epoch值)4500步(训练总步数)

          • 为什么要额外创建这个文件夹

            • 首先,是用于存储打标后的数据集图像

            • 其次,是用于模型训练

三、数据集打标

  1. 启动ComfyUI专享版工具

    • 我们借助ComfyUI专享版工具,通过一个工作流,来完成flux系列模型训练所需要的数据集图像打标,来到首页工具箱,选择ComfyUI专享版工具卡片,点击卡片,选择机型,启动工具(初次启动工具需要一些时间,请耐心等待)

      imageimage

  2. 下载打标工作流

    • 将此打标工作流图像,下载到本地电脑桌面

      image.png

      下载到本地以后,将上方工作流图片,拖拽到ComfyU界面,打开此工作流

  3. 输入打标配置开始打标

      • 输入模型触发词

        • 触发词即后续训练好lora后,在提示词中,你就能用这个触发词,来指代我们训练的产品/画风/人物,来控制出图

        • 触发词建议写不存在的单词,如拼音。这样可以避免,后续生成输入提示词时,模型所理解语意混淆。(如训练装置lora时,我的触发词是zhuangzhi01)

        image.jpeg

      • 输入打标主体的英文名称

        image.jpeg

      • 图片大小调整:

        • 此处采用最长边缩放的方式,在保持图片比例的情况下,通过调整最长边长度,来进行图片的控制。可在右侧int内输入你希望最长边的长度。

        image.jpeg

      • 输入打标数据集名称

        • 前面我们创建好了一个用来做图像打标的数据集,里面只有需要打标的图像,那个数据集的名称叫做a1,那我们这里就填写a1image.png

      • 输入训练数据集名称

        • 前面我们还额外创建好一个,用来存储打标好图像的数据集跟数据集文件夹,我们填写那个数据集和数据集文件夹的名称image.png

          image

      • 完成输入配置后,我们需要在运行的按钮旁边,输入我们上传需要打标的数据集图像数量,比如案例里我们上传到数据集的是17张图像,这里我输入17,然后点击运行image.jpeg

  4. 检查打标数据集

    • 打标完成后,我们返回到存储打标数据集图像的文件夹,点击右上角刷新按钮,“image.png

      image.png

    • 检查每一张图像上,是否都打好了标注image.jpeg

四、模型训练

  1. 启动Kohya专享版工具

    • 来到首页工具箱,选择Kohya专享版工具卡片,点击卡片,选择机型,启动工具(初次启动工具需要一些时间,请耐心等待)

      image

    • 选择GU60L20这两款显卡

      image

      image

  2. 进入Kohya界面,选择LoRA

    image.png

  3. 点击Configuration

    image.png

  4. 选择如图预设并点击回车按钮载入预设

    image.png

  5. image folder选择带标注的文件夹的上级文件夹

    image.png

  6. trained model output name 属于模型保存名

    image.png

  7. 点击parameters参数

    image.png

  8. 找到learning rate Unet 改为0,0001

    image.png

  9. 按图修改network rank16,alpha8

    image.png

  10. 点击开始训练

    image.png

实验资源释放

  • 实验结束后,点击关闭释放实验资源,避免不必要的扣费。

    • PAI ArtLab控制台中,关闭ComfyUI(共享版)页签,EAS模型服务将会停止,不会继续收费。

      image.png

  • 前往PAI ArtLab控制台

  • 在工作空间页面的左侧导航栏中单击模型在线服务(EAS)。在模型在线服务(EAS)页面,找到目标服务。单击其右侧操作列下的删除

    若未找到服务,点击左上角切换模型所在地域,或左侧导航栏切换工作空间列表查看

    • image

  • 如果需要继续使用,请随时关注账号扣费情况,避免模型因欠费而被自动停止。

背景知识

  • 一、核心技术路径

    本文档介绍了一种基于LoRA(Low-Rank Adaptation)技术对Flux基础模型进行微调的完整工作流。LoRA是一种高效的参数微调方法,通过在预训练模型中注入低秩矩阵,实现对特定风格或内容的精确控制,同时保持较小的模型体积和高效的训练过程。整个技术路径包括:高质量数据集构建→图像智能标注→LoRA参数配置→模型训练与部署,形成了一套从数据到应用的闭环系统。

  • 二、专业知识体系

    • 数据科学基础

      • 图像质量标准:统一风格特征(如特定植物、空间类型、非遗元素等),无文字/水印干扰

      • 分辨率规范:1024×1024/1536×1024/1024×1536像素,保持比例一致性

      • 数据集规模理论:20-30张高质量图像的科学依据,平衡过拟合与欠拟合风险

    • 机器学习训练机制

      • 训练步数计算公式:总步数 = 图片数量 × repeat值 × epoch / batch_size

      • 超参数设计原理:network rank (16)与alpha (8)的比值关系决定模型适应能力

      • repeat值与epoch的协同作用:前者控制单图训练频次,后者控制全数据集轮次

        建议3000-4000总训练步数的理论依据

    • 模型架构特性

      • Flux模型特点:高分辨率图像生成能力,对1024+分辨率有更好的支持

      • LoRA技术优势:通过低秩分解减少参数量,避免全参数微调的资源消耗

      • 触发词机制:通过自定义不存在的词汇(如拼音)作为激活标识,避免语义混淆

    • 工作流工程知识

      • 数据集命名规范:"数字_名称"格式的技术含义(数字代表repeat值)

      • 工具链协同:ComfyUI(图像标注)与Kohya(模型训练)的专业分工

      • 硬件选择标准:GU60L20显卡对训练效率的影响

    • 应用场景理论

      • 风格一致性原理:通过有限高质量样本实现风格迁移的神经网络机制

      • 专业领域适应:针对设计、艺术创作等专业场景的模型微调策略

      • 无需编码的技术民主化:通过工具封装降低AI模型定制门槛

此技术路径代表了当前AIGC领域中"小样本精调大模型"的前沿实践,将专业设计需求与深度学习技术有机结合,使创作者能够构建具有个人/品牌特色的专属AI生成能力,实现从通用模型到个性化创作助手的转变。

关闭实验

  • 在完成实验后,点击 结束实操

    image

  • 点击 取消 回到实验页面,点击 确定 退出实验界面,关闭页面结束实验

    image