创意的智能引擎——面向复杂任务的大模型
通过调用、微调模型,数据集清洗与打标实现主题绘本创作
实验任务:通过调用、微调模型,数据集清晰与打标实现主题绘本创作
一、实验目标
通过调用和微调大模型,掌握从创意构思到成品输出的主题绘本创作全流程,实现"文本构思—素材搜集—数据集制作—形象定格—多页生成"的一体化创作流水线,培养跨模态(文字-图像)创作能力
学习数据集打标与LoRA模型微调技术,确保角色外观、色调与笔触在整本书内保持一致
理解并应用ControlNet等技术稳定构图与姿态,减少生成过程中的畸变问题
二、实验介绍
主题绘本创作是一项高度综合的创造性工作,需要同时满足叙事连贯性、角色一致性与画面风格统一的要求。传统绘本创作流程依赖于手绘与反复沟通,成本高昂且难以快速迭代。在数字化时代,如何借助AI技术提升创作效率,同时保持艺术品质与版权合规,成为创意产业的重要课题。
本实验将探索如何通过大模型技术实现主题绘本的智能创作。
借助Stable Diffusion的可控生成能力、kohya等轻量微调工具以及通义千问在剧情设定、分镜脚本与提示词编排上的语言能力,用AI辅助创作流程。
通过本实验,学生将掌握面向复杂任务的大模型应用方法,为未来在创意产业中的AI应用打下坚实基础。
三、相关知识点
大模型与创意生成
大语言模型(LLM):理解通义等大模型在剧情创作、分镜脚本生成中的应用原理
多模态生成:掌握文本到图像(T2I)、图像到图像(I2I)的生成机制
图像生成关键技术
Stable Diffusion:了解扩散模型基本原理,掌握文生图、图生图、局部重绘等核心功能
ControlNet:理解lineart、pose、canny等如何控制生成图像的结构与姿态
LoRA微调:掌握低秩适应技术原理,学习如何通过少量数据定制特定风格
提示词工程:学习构建高质量提示词的技巧,理解正向/负向提示词的作用
数据集与模型训练
数据集构建:掌握素材收集、清洗与标注方法
kohya训练工具:熟悉LoRA模型训练流程与参数设置
版权与授权:了解创意素材的版权管理策略,掌握生成内容的版权声明规范
四、实验环境配置
平台与工具:阿里云PAI-Artlab、通义Qwen3-Max
硬件要求:联网计算机
软件环境:Web浏览器(建议Chrome)
账户设置:注册阿里云账号并完成高校师生认证领取专属算力资源;开通PAI-Artlab使用权限
模型选择:Stable Diffusion、Qwen3-Max
五、实验内容与步骤
1. 实验室资源方式简介
进入实操前,请确保阿里云账号满足以下条件:
个人账号资源
使用您个人的云资源进行操作,资源归属于个人。
平台仅提供手册参考,不会对资源做任何操作。
确保已完成云工开物300元代金券领取。
已通过实名认证且账户余额≥0元。
本实验,预计产生费用:40元-80元,按照生图张数、训练市场实际消耗的GPU时间计费。
如果您调整了资源规格、使用时长,或执行了本方案以外的操作,可能导致费用发生变化,请以控制台显示的实际价格和最终账单为准。
2. 领取实验算力资源
第一步:在开始实验之前,请先点击右侧屏幕的“进入实操”再进行后续操作

第二步:本次实验需要您通过领取阿里云云工开物学生专属300元抵扣券兑换本次实操的云资源,如未领取请先点击领取。(若已领取请跳过)

实验产生的费用优先使用优惠券,优惠券使用完毕后需您自行承担。

3. 开通PAI Artlab平台并授权
点击访问PAI ArtLab平台
初次进入平台,依次点击两步,完成PAI ArtLab平台开通与授权


完成PAI ArtLab平台开通与授权,进入到首页

初次进入平台,依次点击两步,完成PAI ArtLab平台开通与授权


完成PAI ArtLab平台开通与授权,进入到首页

4. 开始实验
第一步:图像收集
为了实现风格一致的绘本模型生成,首先需要构建一个高质量的绘本图像数据集用于训练,数据集中包含30-70张素材。请注意数据集的使用版权问题,也可下载以下示例数据集。特别说明:示例数据集图片均为AI生成,仅用作实验练习示意。绘本AI素材(示例).zip
这里的高质量画面,主要指内容的高质量,画面清晰,无需尺寸过高。以sd1.5基模的lora训练为例,图像像素在512*512或者512*768即可。选择高质量的图像数据需排除以下因素:水印,低清,怪异的光线,复杂且难以辨认的内容物,奇怪的角度等

第二步:数据上传
完成数据收集后,需要将收集到的数据上传至PAI-ArtLab平台,可以根据图示逐步完成

数据集创建成功后,点击新建文件夹,且文件夹名称需要改为“数字_任意名称”的格式。
- 说明
命名格式为“数字_任意名称”,是kohya这个工具对于训练数据集命名的要求。这里的数字,是指训练时赋予的repeat值,是通过文件夹命名来赋予的。图片数量 * repeat 数量 * 设置的epoch / batch_size = 训练总步。repeat数量指:训练过程中会读取多少次这个图像。

将收集好的数据集中的图像拖入文件夹中

第三步: 数据标注
启动Kohya(专享版)工具,请您耐心等待服务启动,首次启动服务大约需要5~10分钟,非首次启动服务大约需要2~3分钟。

数据集图像批量打标:在kohya界面,选择utilities>WD14 Captioning,在要添加标注的图像文件夹里选择你刚才上传的路径,示例:/data-oss/datasets/Test/20_test(一定要选择到有数字的文件夹这一层路径)。

在undesired tags上写上自己不想要的提示词,并在Prefix to add to WD14 caption上写上你想要的Lora触发词,这里以[文件夹名称+数字+,]命名,示例:test20,

点击“Caption images”,开始批量自动打标,大约需要2~3分钟。当日志区提示“captioning done”就是打标完成了。

回到数据集,点击出现数据标注结果,可手动修改直到所有图像的标签都处理完毕

第五步:模型训练
根据步骤指引,在模型广场里将需要训练的基础模型添加至我的模型


单击Kohya(专享版),点击Lora-Training(训练)
Pretrained model选择刚添加进我的模型中的模型
Trained Model output name填写输入训练的LORA名称
在Image folder:/data-oss/datasets/XXXX(选择自己建立的数据库,不要选择带有数字的文件夹)
勾选SDXL

点击展开Parameters(参数)
将 Epoch(训练周期数)改为20。
Max resolution(最大分辨率)改为512,512
取消勾选Enable buckets(数据集尺寸相同时取消勾选)
Text Encoder learning rate(文本编码器学习率)改为0.00001
Network Rank(Dimension)改为128;Network Alpha改为64。



点击开始训练

训练过程中可观测loss值,“loss值”是衡量模型预测与实际结果差异的关键指标。
在logs区域出现“model saved”字样,表示模型训练完成。本次训练的Lora模型为风格模型loss处于0.08-0.13之间,符合范围可以生图。

第六步:测试训练好的loRA模型
模型训练成功后,点击左侧导航模型-我的模型,训练完成后模型会在左侧模型出现

将生成好的所有Lora模型都添加到Stable Diffusion(共享版)
说明因为训练时Epoch数为20,因此训练结束后产出了20个LoRA
参数调整
迭代步数选择30
脚本选择X/Y/Z plot。利用X/Y/Z plot测试哪轮模型的哪个权重效果比较好。
X轴类型和Y轴类型选择Prompt S/R。
X轴值改为:NUM,000001,000002,000003;
Y轴值改为:STRENGTH,0.3,0.5,0.6,0.7,0.8,0.9,1



提示词填写
正向提示词:little white cloud,floating alone in a clear blue sky, comic style children's book illustration, bright colors, thick outlines, cute character with simple eyes and smile, soft shading, friendly atmosphere, whimsical, gentle lighting, clear composition, no text in image, high detail, 4k
负向提示词:photorealistic, 3D render, realistic human, scary, dark, violent, text, watermark, logo, blurry, low quality, adult content, complex background, cluttered, horror, gloomy, sharp edges, anime style, manga panels
选择要测试的lora,将模型名后的六位数字改为NUM,将权重1改为STRENGTH,例如:<lora:huiben-NUM:STRENGTH>
点击生成提示词完成,点击生成。


最后获得XYZ图片。可以将所有训练出来的模型都利用X/Y/Z plot测试哪轮模型的哪个权重效果比较好,则后续创作选择用哪个LoRA模型。
第七步:开始绘本创作
进入通义开始根据剧情创作脚本

经过多轮对话完成创作后,开启Stable Diffusion(共享版)

选择大模型SD_XL_Base_1.0,选择测试效果好的LoRA同步到(共享版)


生成特定风格的绘本
输入在通义中生成的正向提示词与反向提示词,可根据生成效果调整提示词
点击LoRA,选择相应的LoRA,并调节权重至0.8-0.9
根据绘本脚本、分镜、页数,分批生成,生图尺寸可根据实际需求选择,点击生成

第八步:实验资源释放
如果无需继续使用工具,您可以按照以下操作步骤停止或删除工具。
在PAI ArtLab控制台中,关闭Stable Diffusion(共享版)页签,EAS模型服务将会停止,不会继续收费。

在页面左上方,选择模型所在地域,本实验EAS实例所在地域为华东2(上海)
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击默认工作空间名称,进入对应工作空间内。
在工作空间页面的左侧导航栏中单击模型在线服务(EAS)。在模型在线服务(EAS)页面,找到目标服务。单击其右侧操作列下的删除
如果需要继续使用Stable Diffusion(共享版),请随时关注账号扣费情况,避免模型会因欠费而被自动停止。
六、结果验证与评估
人工评估:邀请3-5人盲评,重点关注叙事流畅度与视觉一致性
CLIP相似度:计算连续页面语义相似度,阈值>0.7为合格
色谱一致性:分析主色调方差,差异<15%视为风格稳定
A/B测试:对关键页面采用不同参数配置,选择最优方案
指标 | 评分(1-5) | 说明 |
叙事质量 | 连贯性、节奏感、主题表达 | |
视觉一致性 | 角色一致、风格统一、色彩协调 | |
技术质量 | 画面清晰度、提示词遵从度 | |
合规性 | 版权标注、参数记录、生成标识 |
七、拓展与思考
核心思考
AI在创意工作中是工具还是合作者?如何界定人类与AI的贡献边界?
如何在提高效率的同时确保AI生成内容的文化敏感性和原创性?
"提示词重构—参数调整—结果评估"循环如何自动化以提升创作效率?
进阶方向
风格融合实验:尝试融合两种艺术风格,分析参数调整关键点
动态绘本原型:基于关键帧生成简单动画,探索帧间一致性保持
版权区块链:将生成参数与素材来源信息上链,确保可追溯性
八、常见问题
问题 | 解决方案 |
LoRA训练loss波动大 | 降低学习率(5e-5),增加训练数据,减小batch size |
角色形象不一致 | 强化角色描述,提高LoRA权重(0.8-1.0),使用ControlNet控制 |
手部生成质量差 | 添加"badhandv4"等负向提示,局部重绘,避免复杂手部姿势 |
ControlNet效果不佳 | 调整权重(0.4-0.8),优化starting/ending step |
九、实验报告要求
学生应提交完整的实验报告,包含以下内容:
核心成果:
完整绘本成品(PDF/图片集)
关键页面生成迭代过程(2-3页)
LoRA训练结果与评估
技术分析:
参数记录表(每页关键参数)
质量评估结果(CLIP/人工评分)
1-2个主要问题分析与解决方案
反思总结:
对1个拓展思考问题的深入回答
AI在创意工作中的角色定位反思
实验过程中的经验教训
十、关闭实验
完成实验后,点击 结束实操

点击 取消 回到实验页面,点击 确定 退出实验界面,关闭页面结束实验





















