PAI-ArtLab AI+绘本-从模型训练到绘本制作
本实验围绕ai绘本创作主题,利用stable diffusion,kohya,千问等工具,是包含素材收集,数据集制作,模型训练与大语言模型辅助文生图的综合实验。(本实验具体SDXL版本)
实验简介
本实验围绕ai绘本创作主题,利用stable diffusion,kohya,千问等工具,是包含素材收集,数据集制作,模型训练与大语言模型辅助文生图的综合实验。(本实验具体SDXL版本)
实验室资源方式简介
进入实操前,请确保阿里云账号满足以下条件:
个人账号资源
使用您个人的云资源进行操作,资源归属于个人。
平台仅提供手册参考,不会对资源做任何操作。
确保已完成云工开物300元代金券领取。
已通过实名认证且账户余额≥0元。
本实验,预计产生资源消耗:70-80元
如果您调整了资源规格、使用时长,或执行了本方案以外的操作,可能导致费用发生变化,请以控制台显示的实际价格和最终账单为准。
领取专属权益及开通授权
在开始实验之前,请先点击右侧屏幕的“进入实操”再进行后续操作

第一步:本次实验需要您通过领取阿里云云工开物学生专属300元抵扣券兑换本次实操的云资源,如未领取请先点击领取。(若已领取请跳过)

实验产生的费用优先使用优惠券,优惠券使用完毕后需您自行承担。

第二步:进入并开通PAI-ArtLab并授权
点击访问PAI-ArtLab平台
初次进入平台,依次点击两步,完成PAI-ArtLab平台开通与授权


完成PAI-ArtLab平台开通与授权,进入到首页

实验思路

实验步骤
一、启动Kohya专享版工具
来到首页工具箱,选择Kohya模型训练卡片,点击卡片,启动工具

选择一个云上的机器,基于本实验训练数据,选择1*GU60即可

初次启动工具需要一些时间,请耐心等待

工具启动成功后,你会看到kohya主界面,你的数据集打标和模型训练任务将在这里完成,现在可以先去准备训练集了

二、素材收集
2.1 图像收集
为了实现风格一致的儿童绘本图像生成,本实验首先需要构建一个高质量的绘本图像数据集,用于训练基于 Stable Diffusion XL(SDXL) 的LoRA模型。数据收集应遵循以下要求:
图像类型与风格要求
图像应来自同一风格的儿童绘本插画,画风需统一,色彩明快、构图简洁、角色表现清晰。
建议选择具有代表性的角色形象,如动物、小朋友等。
图像中不存在文字/水印/logo等干扰因素。
图像尺寸
SDXL建议使用高分辨率图像进行训练,所有图片应统一裁切或缩放为:1024×1024/1536×1024/1024×1536 像素区间的图像。
如原图不为正方形,请通过居中裁剪或背景填充的方式处理,保持图像完整性。
图像数量
建议每个角色或风格主题收集 30–50张高质量图片。
(示例如下,可下载解压缩到本地作为首次训练的练习素材)
艾瑞·卡尔(Eric Carle,1929年6月25日-2021年5月23日),美国设计师、插画家、儿童绘本作家和儿童文学作家。其最为著名的作品是用珂拉琪创作的《好饿的毛毛虫》(The Very Hungry Caterpillar),这是有史以来最为畅销的儿童读物之一。
2.2 数据上传
完成数据收集后,需要将收集到的数据上传至PAI-ArtLab平台,可以根据图示逐步完成
进入PAI-ArtLab平台,点击左侧功能栏中的数据集按钮,进入数据集,点击立即创建

根据指示输入数据集命名,本案例选择EricCarle作为数据集命名
数据集创建成功
点击数据集并进入

点击新建文件夹,并且新文件夹的命名格式必须是20_英文,否则会影响最终训练成功。本案例选择20_eric作为新建文件夹命名

点击并进入新建文件夹

将处理好的图像拖入文件夹中,注意:仅拖拽图像进入文件夹,20_英文文件夹中应该能直接预览到图像
确认数据被正确上传

2.3 数据标注
为了训练一个具备特定风格的绘本类 LoRA 模型,需对采集到的图像进行语义标注(caption)。Stable Diffusion 及其 LoRA 模型训练依赖图像与文本的配对,文本描述用于引导模型学习图像的风格特征与内容语义。标注分为机器标注与人工优化标注。以下为数据标注具体要求:
标注目标
为每张训练图像编写一条简洁、准确的英文提示词描述(prompt-style caption),用于训练期间作为条件输入。该描述应同时体现:
图像的主角(如动物、儿童角色)
场景或环境(如森林、房间、夜晚)
画面风格(如卡通风格、儿童绘本风格)
表达情感或氛围(如温馨、梦幻、快乐)
关键词建议词库(可自由组合):
主体描述:
a fox,a bunny,a child,a cat场景环境:
in a forest,under the stars,in a sunny room,beside a river风格表达:
children’s book illustration,storybook style,cartoonish,whimsical氛围感受:
warm colors,soft light,dreamy,playful,magical
标注注意事项
避免使用抽象词(如“nice”、“good”),尽量具体描述角色与场景。
不必过长:每条标注控制在15-30词以内,具备画面引导力即可。
保持统一风格:整体描述风格应一致,以便模型准确学习目标画风。
避免过多风格标签:SDXL 对提示词敏感,建议最多2-3个风格修饰语。
回到启动好的Kohya界面,如界面显示为纯白色,可以刷新浏览器

点击上方功能栏的倒数第二个选项Utilities、Captioning、WD14 Captioning

选择需要标注的文件夹(点击选择文件夹,输入 / 索引至带数字的文件夹)

选择打标模型

输入触发词
触发词就像是打开某种画风或角色形象的“魔法咒语”。
你训练了一个 LoRA 模型,它“记住”了一种风格或角色,但模型并不会自动知道你什么时候想用它。这时候你就需要用一个“关键词”来告诉模型:现在我要用这个风格!——这个关键词就是触发词。
Q:触发词是什么?
A:控制你训练的风格或角色启动的关键词
Q:什么时候写?
A:使用 LoRA 时的 prompt 里必须加上
Q:写错会怎样?
A:模型可能不加载风格,效果不对
Q:可以自定义吗?
A:可以,训练时就决定了,一般用图像命名或caption中加
但是 触发词不应该是一个具有具体意义的词汇,如果一个lora触发词叫bear,那当我们输入触发词去调用LoRA的时候,大模型也能听懂这个bear,那么这样会使AI产生混乱,因此建议用英文+拼音的形式构建触发词,本案例使用触发词为erichuiben
输入触发词后必须子在后面加上英文逗号

点击caption images开始标注

观察下方的logs日志,出现captioning done说明标注完成

回到数据集,点击单张图片确认是否出现标注词(可以点击刷新按钮)

修改标签(以45.PNG为例)
修改标签通常有三个原则
删除错误的标签
删除重复的标签
补充正确的标签

初始机器标签:
erichuiben, 1girl, long hair, open mouth, blue eyes, blonde hair, simple background, shirt, long sleeves, hat, white background, striped, pants, red shirt, striped shirt, green shirt, red pants, dinosaur
删除错误的标签

删除重复的标签

补充正确的标签

以上面的标注处理方法为例,在数据集中手动处理标签,直到所有图像的标签都处理完毕。
三、模型训练
lora训练
回到Kohya工具,在功能栏选择LoRA
lora训练主要分为三个步骤:
选择模型
选择训练数据
调节参数

选择模型
依次选择LoRA/Training,找到模型选择区域

模型选择下拉列表选择sdxl base 1.0,勾选模型类型SDXL

训练精度bf16

选择训练数据集,这里注意跟打标不一样,不是选择到数据集下面的文件夹,而是选择到数据集

选择训练数据
选择训练数据集,这里注意跟打标不一样,不是选择到数据集下面的文件夹,而是选择到数据集

命名

Accelerate launch

调节参数


进行公式计算:
Epoch=1000/图片数
将计算出的Epoch值填入Epoch(训练周期数),本案例的计算结果为20

修改其他参数(所有需要修改的参数都以红框形式标出,修改至与教程一致即可)


检查上述步骤都正确完成后点击开始训练

划到下方日志栏, 看到上述后台参数说明训练正确开始

观察训练参数并等待训练完毕,训练完成后模型会在左侧模型-我的模型中出现(因为案例选择Epoch数为20,因此训练结束后产出了20个LoRA)

四、模型效果验证
启动SDWebUI专享版工具
来到首页工具箱,选择Stable Diffusion WebUI · 专享版图像生成工具卡片,点击卡片,启动工具(初次启动工具需要一些时间,请耐心等待)


模型测试
开启工具箱-Stable Diffuison专享版

选择大模型(SD_XL_base_1.0)

复制一组训练集中的提示词,添加到正向提示词框中


输入反向提示词

调整基础参数

选择任意一个训练LoRA,鼠标左键单击

在正向提示词中找到LoRA调用命令

根据标准格式修改此命令
将模型名-后的六位数字改为NUM
将:后的1改为STRENGTH

点击Generation回到参数界面

来到最下方的脚本处,选择X/Y/Z 图表

修改参数与下图一致,注意:逗号应使用英文逗号

点击生成

生成结束后,在图库浏览器-文生图(网格)中查收测试图片(由于图像较大,会有传输延迟,可以多按蓝色刷新按钮)

在XYZ图表中,X轴表示模型的序号,Y轴表示模型的权重,而我们需要选择一款表现最好的模型。我们会考量模型的两个方面,第一块是准确性,经过学习,模型在0.7-1的权重区间内是否表现出训练集的特征。第二块是泛化性,我们简单理解最左侧一列是大模型独立创作的图像,那么加上LoRA后,是给这个图片内容添加了画风,还是彻底改变了图像内容,我们希望画面内容应该是能参考到最左侧一列的内容特征,并且在体现风格特征的同时又维持画面和谐。其中000009号与000011号都符合上述对模型的要求,因此后续会利用000011号模型进行创作

五、使用LORA与内容创作
启动SDWebUI共享版工具
来到首页工具箱,选择Stable Diffusion WebUI · 共享版图像生成工具卡片,点击卡片,启动工具(初次启动工具需要一些时间,请耐心等待)

开始创作
进入模型-我的模型,将选择的LoRA同步到(共享版)

选择大模型SD_XL_Base_1.0

输入正向提示词与反向提示词,正向提示词可模仿数据集中标注词的写法,但更换关键的元素,如动物种类,场景类型等

点击LoRA,点击刷新,选择同步到共享版的LoRA,并调节权重至0.8-0.9



调节生图尺寸(1536-1024范围),调节单批数量为4,点击生成

文生图结果
photo of a black dog with a woolly body and a colorful face, white background, cartoonish look, minimalistic, high quality, soft and textured wool, playful and cute appearance, bright and contrasting colors, no background details, animal-themed artwork, pastel colors, smooth and rounded shapes <lora:eric-000011:0.8>


digital illustration of a 1 dog, detailed, high quality, watermark, jpeg artifacts <lora:eric-000011:0.8>


digital illustration of a 1 cat, detailed, high quality, watermark, jpeg artifacts <lora:eric-000011:0.8>


The Forbidden City, digital illustration of a cat, detailed, high quality, watermark, jpeg artifacts <lora:eric-000011:0.8>


Eiffel Tower, digital illustration of a cat, detailed, high quality, watermark, jpeg artifacts <lora:eric-000011:0.8>


故事脚本,分镜与分镜提示词创作
进入千问或任意智能助手(如豆包/deepseek等)
以本次训练lora为例,进行提问:

AI回答:太棒了!Eric Carle(埃里克·卡尔)是著名的儿童绘本大师,他的代表作如《好饿的毛毛虫》(The Very Hungry Caterpillar)以拼贴画风格、鲜艳色彩、重复节奏和童趣故事著称。他常用的手法包括:
手工绘制的彩纸剪贴
鲜明而富有对比的色彩
粗黑轮廓线
简洁的文字与图像互动
自然与动物主题
下面我将为你设计一个原创的Eric Carle风格绘本脚本,包括:
绘本名称与主题
分镜头脚本(共8页)
每页对应的AI绘画提示词(中英文)
适合年龄:3~6岁
绘本名称:
《小青蛙跳跳找朋友》 / Jump, the Little Frog is Looking for a Friend
主题:
友谊、探索、自然、勇气
分镜头脚本 + AI绘画提示词(共8页)
第1页:封面页
画面内容: 小青蛙在荷叶上跳跃,背景是阳光明媚的池塘。
中文提示词:
Eric Carle风格,手工彩纸拼贴画,绿色小青蛙穿着黄色背带裤站在大荷叶上,周围有蓝色水面、粉色荷花、蜻蜓飞舞,明亮色彩,粗黑轮廓线,卡通表情,儿童绘本风格
English prompt:
Eric Carle style, hand-painted collage art, green little frog in yellow overalls standing on a big lily pad, blue water around, pink lotus flowers and flying dragonflies, bright colors, thick black outlines, cartoonish expressions, children’s picture book style
第2页:出发
画面内容: 小青蛙从荷叶上跳入水中,准备去寻找朋友。
中文提示词:
Eric Carle风格,绿色小青蛙在水中溅起水花,背景为波光粼粼的池塘,周围有芦苇和浮萍,浅蓝与翠绿搭配,充满动感的跳跃瞬间,拼贴质感明显
English prompt:
Eric Carle style, green little frog jumping into water with splash effect, background of rippling pond, reeds and floating leaves, light blue and emerald green tones, dynamic motion capture, collage texture visible
第3页:遇见乌龟
画面内容: 小青蛙在岸边遇到一只慢吞吞的乌龟。
中文提示词:
Eric Carle风格,绿色小青蛙和棕色乌龟面对面站着,乌龟背着彩色壳,背景是岩石与草地,橙色太阳挂在天空一角,温暖色调,线条柔和但清晰
English prompt:
Eric Carle style, green little frog and brown turtle facing each other, turtle with colorful shell, background of rocks and grass, orange sun in corner of sky, warm tones, soft but clear lines
第4页:遇见兔子
画面内容: 小青蛙跳进森林,看到一只蹦蹦跳跳的兔子。
中文提示词:
Eric Carle风格,绿色小青蛙与白色长耳兔对视,背景是树林与野花,树叶呈几何形状拼贴,色彩丰富,构图平衡,突出两个角色的表情互动
English prompt:
Eric Carle style, green little frog and white long-eared rabbit looking at each other, forest and wildflowers in background, geometric-shaped leaves in collage, vibrant colors, balanced composition, expressive faces
第5页:下雨啦
画面内容: 突然下起雨来,小青蛙躲在蘑菇下。
中文提示词:
Eric Carle风格,绿色小青蛙躲在红色斑点蘑菇下,雨滴用透明蓝色小圆点表示,背景为灰蓝色天空与湿润的泥土地面,情绪略显紧张但仍保持童趣
English prompt:
Eric Carle style, green little frog hiding under red polka-dot mushroom, raindrops shown as translucent blue dots, gray-blue sky and wet earth ground, mood slightly tense but still playful and whimsical
第6页:彩虹出现
画面内容: 雨停后,天边出现彩虹,小青蛙继续前行。
中文提示词:
Eric Carle风格,七彩彩虹横跨画面,绿色小青蛙站在石头上抬头看天,背景为雨后的森林与水洼,彩虹颜色饱满且有拼贴质感,画面充满希望感
English prompt:
Eric Carle style, rainbow stretching across the page, green little frog standing on a rock looking up, background of post-rain forest and puddles, rainbow colors vivid with collage texture, uplifting and hopeful atmosphere
第7页:找到朋友
画面内容: 小青蛙终于找到了另一个小青蛙,两人开心地拥抱。
中文提示词:
Eric Carle风格,两只绿色小青蛙相拥在一起,背景为夕阳下的池塘与萤火虫,整体色调偏暖黄与橙红,表达友情的温馨与满足感
English prompt:
Eric Carle style, two green little frogs hugging each other, background of sunset pond and fireflies, warm yellow and orange-red tones, conveying warmth and joy of friendship
第8页:结尾页
画面内容: 小青蛙们一起玩耍,其他动物也加入进来,大家成为好朋友。
中文提示词:
Eric Carle风格,绿色小青蛙与朋友们在草地上跳舞,有乌龟、兔子、蝴蝶等,背景为蓝天白云与野花,色彩缤纷,欢乐气氛浓厚,适合做封底或结尾页
English prompt:
Eric Carle style, green little frogs dancing together with friends — turtle, rabbit, butterflies — on grassy field, blue sky with clouds and wildflowers in background, vibrant colors, joyful and inclusive ending scene
效果展示








清理资源
如果无需继续使用工具,您可以按照以下操作步骤停止或删除工具。
在PAI-ArtLab控制台中,关闭已经打开的页签,EAS模型服务将会停止,不会继续收费。

在左侧导航栏单击工作空间列表,在工作空间列表页面中单击默认工作空间名称,进入对应工作空间内。
在工作空间页面的左侧导航栏中单击模型在线服务(EAS)。在模型在线服务(EAS)页面,找到目标服务。单击其右侧操作列下的删除

注意:如未找到目标服务,在页面左上方,切换模型所在地域
如果需要继续使用,请随时关注账号扣费情况,避免模型因欠费而被自动停止。
关闭实验
在完成实验后,点击 结束实操

点击 取消 回到实验页面,点击 确定 关闭并退出实验























































































