多模态文生图模型_大模型服务平台百炼(BAILIAN)-阿里云帮助中心

模型简介

多模态文生图模型是一种能够根据文本描述生成图像的大模型，通过同时理解和处理文本和图像两种模态的数据，生成与输入文本相对应的视觉内容。通过集成自然语言处理和计算机视觉技术，多模态文生图模型多应用于广告创作、自动绘图和虚拟现实等领域。

模型概览

模型服务	模型名称	模型描述	应用场景
StableDiffusion文生图模型	stable-diffusion-xl	而stable-diffusion-xl相比于v1.5做了重大的改进，被认为是当前开源文生图模型的SOTA水准，具体改进之处包括：更大的unet backbone，是之前的3倍；增加了refinement模块用于改善生成图片的质量；更高效的训练技巧等。	改善生成图片质量；图片生成；
StableDiffusion文生图模型	stable-diffusion-v1.5	stable-diffusion-v1.5模型通过clip模型能够将文本的embedding和图片embedding映射到相同空间，从而通过输入文本并结合unet的稳定扩散预测噪声的能力，生成图片。是一款基础的文生图模型，得到了业界广泛使用	改善生成图片质量；图片生成；
FaceChain人物图像检测	facechain-facedetect	FaceChain人物写真生成，仅需要某个人物的2张照片，即可训练得到该人物的专属形象，并批量生成各种风格的写真照片。FaceChain基于扩散模型的图像生成能力，结合LoRA训练实现人像和风格融合，并叠加一系列后处理能力，实现兼具相似度、真实感、美观度的写真生成能力。	人物写真生成；生成专属人物形象；
FaceChain人物形象训练	facechain-finetune
FaceChain人物写真生成	facechain-generation
文字纹理生成API	wordart-texture	WordArt锦书-文字纹理生成可以对输入的文字内容或文字图片进行创意设计，根据提示词内容对文字添加材质和纹理，实现立体凸显或场景融合的效果，生成效果精美、风格多样的艺术字，结合背景可以直接作为文字海报使用。	生成立体艺术字；生成文字海报；文字变形字；
文字变形API	wordart-semantic	WordArt锦书-文字变形可以对输入的文字边缘轮廓进行创意变形，根据提示词内容进行边缘变化，实现一种字体的更多种创意用法，返回带有文字内容的黑底白色蒙版图。	生成立体艺术字；生成文字海报；文字变形字；