文本生成图像
通义万相-文生图模型能够通过文本描述生成高质量图像。它提供 V1 和 V2 两个版本,V2 版效果更好,建议优先使用。
快速入口:通义万相官网在线体验 | 文生图V2版API参考 |
模型概览及对比
模型概览
模型版本 | 模型名称 | 模型简介 |
通义万相文生图2.2 (文生图V2版) | wan2.2-t2i-flash | 万相2.2极速版。当前最新模型,通用模型。 在创意性、稳定性、写实质感上全面升级,生成速度快,性价比高。 |
wan2.2-t2i-plus | 万相2.2专业版。当前最新模型,通用模型。 在创意性、稳定性、写实质感上全面升级,生成细节丰富。 | |
通义万相文生图2.1 (文生图V2版) | wanx2.1-t2i-turbo | 万相2.1极速版。通用模型,生成速度快。 |
wanx2.1-t2i-plus | 万相2.1专业版。通用模型,生成图像细节更丰富,速度稍慢。 | |
通义万相文生图2.0 (文生图V2版) | wanx2.0-t2i-turbo | 万相2.0极速版。通用模型,擅长质感人像与创意设计,性价比高。 |
通义万相文生图1.0 (文生图V1版) | wanx-v1 | 基础文生图模型。建议尽早切换到最新模型。 |
模型切换:新版模型名称前缀为wan
,往期模型为wanx
。在切换模型时,请仔细核对模型名称,以免调用失败。
计费与限流
模型名称 | 计费单价 | 限流(主账号与RAM子账号共用) | 免费额度(查看) 有效期:阿里云百炼开通后180天内 | |
任务下发接口RPS限制 | 同时处理中任务数量 | |||
wan2.2-t2i-flash | 0.14元/张 | 2 | 2 | 100张 |
wan2.2-t2i-plus | 0.20元/张 | 2 | 2 | 100张 |
wanx2.1-t2i-plus | 0.20元/张 | 2 | 2 | 500张 |
wanx2.1-t2i-turbo | 0.14元/张 | 2 | 2 | 500张 |
wanx2.0-t2i-turbo | 0.04元/张 | 2 | 2 | 500张 |
wanx-v1 | 0.16元/张 | 2 | 1 | 500张 |
模型效果对比
模型建议:相较于2.1模型,2.2模型在升级的同时保持价格不变,推荐选择全新升级万相2.2模型开启文生图创作。
文生图2.2 (wan2.2-t2i-plus) | 文生图2.1 (wanx2.1-t2i-turbo) | 文生图2.0 (wanx2.0-t2i-turbo) | 文生图1.0 (wanx-v1) |
prompt = "生成一张新年祝福贺卡,背景有白雪,放鞭炮的小孩,蛇形成文案2025,并写上HAPPY NEW YEAR。" 效果对比:文生图2.2模型的文字生成能力更强,适合创意设计场景。 | |||
prompt = "一个用针毡制作的圣诞老人手持礼物,旁边站着一只白色的猫咪,背景中有许多五颜六色的礼物。整个场景应该是可爱、温暖和舒适的,并且背景中还有一些绿色植物。" 效果对比:文生图2.2模型的语义理解更加准确(如手持礼物),画面细节更丰富(如礼物纹理)。 | |||
prompt = "中国女孩,圆脸,看着镜头,优雅的民族服装,商业摄影,室外,电影级光照,半身特写,精致的淡妆,锐利的边缘。 " 效果对比:文生图2.2模型生图更稳定,此外2.0模型在质感人像生成方面表现出色,两种模型均可选择。 | |||
prompt = "高清摄影写真,一只布偶猫慵懒地躺在复古木质窗台上。它拥有一身柔软的银白色长毛,深蓝色宝石般的眼睛,粉嫩的小鼻头和肉垫。猫咪眼神温柔地望向镜头,嘴角似乎带着一抹满足的微笑。午后阳光透过半开的窗户洒在它身上,营造出温馨而宁静的氛围。背景是模糊的绿色植物和老式窗帘,增添了几分生活气息。近景特写,自然光影效果。" 效果对比:文生图2.2模型在动物图像的生成和理解方面更具优势,生成画面更加真实。 | |||
前期准备
文生图V2和V1版模型API均支持通过HTTP和DashScope SDK进行调用。
在调用前,您需要开通模型服务并获取API Key,再配置API Key到环境变量。
如需通过SDK进行调用,请安装DashScope SDK。目前,该SDK已支持Python和Java。
下面展示文生图V2版和V1版的HTTP请求参数。
文生图V2版
{
"model": "", //必填项
"input": {
"prompt": "", //提示词,必填项
"negative_prompt": "" //选填项
},
"parameters": {
"size": "1024*1024", //默认值
"n": 4, //默认值
"prompt_extend": true, //默认值
"watermark": false, //默认值
"seed": 42 //示例值
}
}
文生图V1版
{
"model": "", //必填项
"input": {
"prompt": "", //提示词,必填项
"negative_prompt": "", //选填项
"ref_img": "" //选填项
},
"parameters": {
"style": "<auto>", //默认值
"size": "1024*1024", //默认值
"n": 4, //默认值
"ref_strength": 0.5, //默认值
"ref_mode": "repaint", //默认值
"seed": 42 //示例值
}
}
提示词
文生图模型需要使用一段文字描述生成的图片。提示词(prompt)描述越完整、精确和丰富,生成的图像品质越高,越贴近期望生成的内容。
提示词撰写技巧请参见文生图Prompt指南。
关键能力-文生图V2版
通义万相-文生图V2版模型的升级要点如下所示。参数说明请参见通义万相-文生图V2版。
prompt智能改写:默认开启智能改写,对于较短的输入prompt生成效果提升明显。推荐使用默认值。
按任意分辨率生成图像:文生图V1版模型仅支持4种输出图像分辨率,V2版模型支持设置任意分辨率,最高可达200万像素。
添加水印:开放水印参数,可为输出图像添加水印。默认不添加水印。
prompt智能改写
通过prompt_extend
控制是否开启prompt智能改写。默认开启智能改写,开启后会使用大模型(qwen模型)对输入prompt进行智能改写。对于较短的输入prompt生成效果提升明显,但会增加3-4秒耗时。
下面展示两个开启prompt智能改写的前后对比示例,模型使用wanx2.1-t2i-turbo
。
// prompt示例1
prompt = "火星上的城市,废土风格。"
不开启智能改写 | 开启智能改写 | 改写后的prompt |
废土风格的火星城市,画面中可以看到荒凉的红色沙地和破败的建筑。城市中散布着废弃的车辆和机械残骸,天空呈现出暗淡的橙黄色。远处有几座破损的高楼,表面覆盖着尘土和裂痕。近景处有一群穿着厚重防护服的探险者,他们手持武器,警惕地观察四周。整体色调偏暗,充满末日氛围。长焦镜头拍摄,细节丰富。 | ||
废土风格的火星城市,荒凉的红色地表上散布着废弃的建筑和残破的机械。城市的天际线被尘暴笼罩,远处可见几座破损的高塔。街道上散落着锈迹斑斑的车辆和碎片。画面整体色调偏暗,充满末日氛围。近景中有一辆破旧的越野车停在路边,驾驶舱内坐着一位穿着厚重防护服的探险者,他/她正凝视前方。长焦镜头,写实摄影风格。 |
// prompt示例2
prompt = "外景,香水瓶,产品照片,暖色调"
不开启智能改写 | 开启智能改写 | 改写后的prompt |
暖色调外景产品照片,一瓶精致的香水瓶置于画面中央。香水瓶身透明,内部液体呈淡金色,瓶盖为金色金属质感。背景是温暖的夕阳下,绿树成荫的小径和远处的建筑。光线柔和,营造出温馨舒适的氛围。高清写实摄影,近景特写构图。 | ||
暖色调外景产品照片,一瓶精致的香水瓶置于画面中央。香水瓶身透明,内装淡粉色液体,瓶颈装饰有金色细节。背景是柔和的自然景观,可见蓝天、白云和远处的树木。光线温暖,营造出温馨浪漫的氛围。高清写实摄影,近景特写构图。 |
按任意分辨率生成图像
通过设置 size
参数来控制输出图像的分辨率。
升级版的文生图V2版模型支持自定义设置图像分辨率,图像宽高边长的像素范围为:[768, 1440],默认值是1024*1024。
下面展示常见的输出图像分辨率尺寸,模型使用wanx2.1-t2i-plus
。
size=768*1024(3:4) | size=1024*768(4:3) | size=1024*1024(1:1) |
添加水印
通过watermark
为输出图像添加水印标识,水印位于图片右下角,文案为“AI生成”。默认值为false,表示不添加水印。
下面展示添加水印的效果,模型使用wanx2.1-t2i-turbo
。
watermark=false(不添加水印) | watermark=true(添加水印) |
关键能力-文生图V1版
通义万相-文生图V1版模型支持:根据输入文本生成图像、根据输入文本和参考图像生成相似图。参数说明请参见通义万相-文生图V1版。
文生图V1版模关键能力包括:
使用反向提示词:支持使用反向提示词,来指定图像中不包含的元素。
基于参考图像生成相似图:
ref_mode
指定生成相似图的方式,repaint
代表参考内容,默认值;refonly
代表参考风格。
使用反向提示词
通过正向提示词描述期望的图像元素和风格,使用反向提示词来描述不希望在图像中看到的内容。例如,设置negative_prompt
以限制输出图像中不要使用红色元素。
//正向提示词
prompt = "近景镜头,18岁的中国女孩,古代服饰,圆脸,正面看着镜头,民族优雅的服装,商业摄影,室外,电影级光照,半身特写,精致的淡妆,锐利的边缘。"
//反向提示词
negative_prompt = "红色元素"
基于参考图生成相似图
基于参考图生成图像涉及两个参数:ref_strength
参数和ref_mode
参数。
设置相似度
您可以使用ref_strength
参数来控制输出图像与参考图的相似度。它的取值范围是[0.0, 1.0],默认值为0.5。取值越大表示跟参考图像越相似。
设置相似图的生成方式
您可以通过ref_mode
参数来控制如何基于参考图像生成相似图。
ref_mode="repaint":根据参考图像内容生成图像,默认值。
ref_mode="refonly":根据参考图像风格生成图像。
相关文档
图像模型常见问题:包括本地接口调试、模型计费与限流、接口高频报错等。