阿里云百炼提供丰富的视频生成模型,覆盖通用创作(文生视频、图生视频、参考生视频、视频编辑)与垂直场景(数字人对口型、图生动作、视频换人、表情包制作等)多样化需求。
模型总览
|
部署模式 查看各模式区别 |
中国内地 模型推理计算资源仅限中国内地 |
全球 模型推理计算资源全球调度 |
国际 模型推理计算资源全球调度(不含中国内地) |
美国 模型推理计算资源仅限美国境内 |
|
接入地域 |
北京 |
弗吉尼亚 |
新加坡 |
弗吉尼亚 |
|
支持的模型 |
模型选型
-
通用视频生成
-
需要将文字转化为视频时,使用万相-文生视频。
-
有一张图,想生成电影感镜头,使用万相-图生视频-基于首帧。
-
有开头和结尾两张图,要控制画面变化过程,使用万相-图生视频-基于首尾帧。
-
有多个视频,想复刻角色的形象和声音表演新剧本,使用万相-参考生视频。
-
-
数字人对口型:让静态照片说话、唱歌或播报。背景保持不变,仅主体面部、头部和肢体运动。
-
当需要长视频(>20秒)且头部动作简单(如新闻播报)时,考虑使用灵动人像LivePortrait。
-
视频动作迁移:保留照片背景,让照片的人参考指定视频动起来,使用万相-图生动作。
-
视频换人:保留视频背景,把视频的人换成指定图像的人,使用万相-视频换人。
-
跳舞换人:把跳舞视频的人换成图像的人。推荐选择万相-图生动作和万相-图生动作(效果佳);若预算有限,可选舞动人像AnimateAnyone(性价比高)。
-
视频口型替换:给已有视频改配音口型,使用声动人像VideoRetalk。
-
表情包制作:制作固定风格模板的表情包,使用表情包Emoji。
-
视频编辑:以下需求均选择万相-通用视频编辑。
-
视频局部编辑:替换视频中的主体或衣服、删除路人等。
-
视频延展:把视频延长,如1秒视频延长为5秒。
-
视频画面扩展:横屏变竖屏、补全边界。
-
多图参考生成:融合背景图像和主体图像生成视频。
-
支持的模型
万相-文生视频
根据文本提示词生成视频。支持输入文本+音频,输出电影级多镜头视频。
API参考|模型价格|Prompt指南|在线体验:北京、新加坡、弗吉尼亚
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-t2v | 有声视频 多镜头叙事、声画同步 | 文本、音频 | 分辨率档位:720P、1080P 视频时长:[2s, 15s](整数) 固定规格:30fps、MP4 (H.264编码) |
wan2.5-t2v-preview | 有声视频 声画同步 | 文本、音频 | 分辨率档位:480P、720P、1080P 视频时长:5s、10s 固定规格:30fps、MP4 (H.264编码) |
wan2.2-t2v-plus | 无声视频 较2.1模型稳定性与成功率全面提升 | 文本 | 分辨率档位:480P、1080P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wanx2.1-t2v-turbo | 无声视频 | 文本 | 分辨率档位:480P、720P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wanx2.1-t2v-plus | 无声视频 | 文本 | 分辨率档位:720P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
全球
在全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-t2v | 有声视频 多镜头叙事、声画同步 | 文本、音频 | 分辨率档位:720P、1080P 视频时长:5s、10s 、15s 固定规格:30fps、MP4 (H.264编码) |
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-t2v | 有声视频 多镜头叙事、声画同步 | 文本、音频 | 分辨率档位:720P、1080P 视频时长:[2s, 15s](整数) 固定规格:30fps、MP4 (H.264编码) |
wan2.5-t2v-preview | 有声视频 声画同步 | 文本、音频 | 分辨率档位:480P、720P、1080P 视频时长:5s、10s 固定规格:30fps、MP4 (H.264编码) |
wan2.2-t2v-plus | 无声视频 较2.1模型稳定性与成功率全面提升 | 文本 | 分辨率档位:480P、1080P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wan2.1-t2v-turbo | 无声视频 | 文本 | 分辨率档位:480P、720P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wan2.1-t2v-plus | 无声视频 | 文本 | 分辨率档位:720P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
美国
在美国部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源仅限于美国境内。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-t2v-us | 有声视频 多镜头叙事、声画同步 | 文本、音频 | 分辨率档位:720P、1080P 视频时长:5s、10s 、15s 固定规格:30fps、MP4 (H.264编码) |
输入提示词 | 输出视频(wan2.6,多镜头视频) |
一幅史诗级可爱的场景。一只小巧可爱的卡通小猫将军,身穿细节精致的金色盔甲,头戴一个稍大的头盔,勇敢地站在悬崖上。他骑着一匹虽小但英勇的战马,说:“青海长云暗雪山,孤城遥望玉门关。黄沙百战穿金甲,不破楼兰终不还”。悬崖下方,一支由老鼠组成的、数量庞大、无穷无尽的军队正带着临时制作的武器向前冲锋。这是一个戏剧性的、大规模的战斗场景,灵感来自中国古代的战争史诗。远处的雪山上空,天空乌云密布。整体氛围是“可爱”与“霸气”的搞笑和史诗般的融合。 |
万相-图生视频-基于首帧
根据给定的首帧图像生成视频。支持输入文本+首帧图像+音频,输出电影级多镜头视频。
API参考|模型价格|Prompt指南|在线体验:北京、新加坡、弗吉尼亚
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-i2v-flash | 有声视频、无声视频 多镜头叙事、声画同步 | 文本、图像、音频 | 分辨率档位:720P、1080P 视频时长:[2s, 15s](整数) 固定规格:30fps、MP4 (H.264编码) |
wan2.6-i2v | 有声视频 多镜头叙事、声画同步 | 文本、图像、音频 | 分辨率档位:720P、1080P 视频时长:[2s, 15s](整数) 固定规格:30fps、MP4 (H.264编码) |
wan2.5-i2v-preview | 有声视频 声画同步 | 文本、图像、音频 | 分辨率档位:480P、720P、1080P 视频时长:5s、10s 固定规格:30fps、MP4 (H.264编码) |
wan2.2-i2v-flash | 无声视频 较2.1模型速度提升50% | 文本、图像 | 分辨率档位:480P、720P、1080P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wan2.2-i2v-plus | 无声视频 较2.1模型稳定性与成功率全面提升 | 文本、图像 | 分辨率档位:480P、1080P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wanx2.1-i2v-plus | 无声视频 | 文本、图像 | 分辨率档位:720P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wanx2.1-i2v-turbo | 无声视频 | 文本、图像 | 分辨率档位:480P、720P 视频时长:3s、4s、5s 固定规格:30fps、MP4 (H.264编码) |
全球
在全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-i2v | 有声视频 多镜头叙事、声画同步 | 文本、图像、音频 | 分辨率档位:720P、1080P 视频时长:5s、10s 、15s 固定规格:30fps、MP4 (H.264编码) |
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-i2v-flash | 有声视频、无声视频 多镜头叙事、声画同步 | 文本、图像、音频 | 分辨率档位:720P、1080P 视频时长:[2s, 15s](整数) 固定规格:30fps、MP4 (H.264编码) |
wan2.6-i2v | 有声视频 多镜头叙事、声画同步 | 文本、图像、音频 | 分辨率档位:720P、1080P 视频时长:[2s, 15s](整数) 固定规格:30fps、MP4 (H.264编码) |
wan2.5-i2v-preview | 有声视频 声画同步 | 文本、图像、音频 | 分辨率档位:480P、720P、1080P 视频时长:5s、10s 固定规格:30fps、MP4 (H.264编码) |
wan2.2-i2v-flash | 无声视频 较2.1模型速度提升50% | 文本、图像 | 分辨率档位:480P、720P、1080P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wan2.2-i2v-plus | 无声视频 较2.1模型稳定性与成功率全面提升 | 文本、图像 | 分辨率档位:480P、1080P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wan2.1-i2v-plus | 无声视频 | 文本、图像 | 分辨率档位:720P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wan2.1-i2v-turbo | 无声视频 | 文本、图像 | 分辨率档位:480P、720P 视频时长:3s、4s、5s 固定规格:30fps、MP4 (H.264编码) |
美国
在美国部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源仅限于美国境内。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-i2v-us | 有声视频 多镜头叙事、声画同步 | 文本、图像、音频 | 分辨率档位:720P、1080P 视频时长:5s、10s 、15s 固定规格:30fps、MP4 (H.264编码) |
输入提示词 | 输入首帧图像和音频 | 输出视频(wan2.6,多镜头视频) |
一幅都市奇幻艺术的场景。一个充满动感的涂鸦艺术角色。一个由喷漆所画成的少年,正从一面混凝土墙上活过来。他一边用极快的语速演唱一首英文rap,一边摆着一个经典的、充满活力的说唱歌手姿势。场景设定在夜晚一个充满都市感的铁路桥下。灯光来自一盏孤零零的街灯,营造出电影般的氛围,充满高能量和惊人的细节。视频的音频部分完全由他的rap构成,没有其他对话或杂音。 |
输入音频: |
万相-图生视频-基于首尾帧
根据给定的首帧图像和尾帧图像,生成过渡自然的视频。支持输入文本+首帧图像+尾帧图像+音频,输出电影级多镜头视频。
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.2-kf2v-flash | 无声视频 较2.1模型稳定性与成功率全面提升 | 文本、图像 | 分辨率档位:480P、720P、1080P 视频时长:5s 固定规格:30fps、MP4(H.264编码) |
wanx2.1-kf2v-plus | 无声视频 | 文本、图像 | 分辨率档位:720P 视频时长:5s 固定规格:30fps、MP4(H.264编码) |
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.1-kf2v-plus | 无声视频 | 文本、图像 | 分辨率档位:720P 视频时长:5s 固定规格:30fps、MP4(H.264编码) |
输入首帧图像 | 输入尾帧图像 | 输入提示词 | 输出视频 |
|
| 写实风格,一只黑色小猫好奇地看向天空,镜头从平视逐渐上升,最后俯拍小猫好奇的眼神。 |
万相-参考生视频
复刻视频中的角色的形象和声音表演新剧本。输入视频+文本提示词,输出视频在保持角色一致性的同时,生成多镜头、声画同步的视频。
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-r2v-flash | 有声视频、无声视频 参考多角色生视频 多镜头叙事、声画同步 | 文本、图像、视频 | 分辨率档位:720P、1080P 视频时长:[2s, 10s](整数) 固定规格:30fps、MP4(H.264编码) |
wan2.6-r2v | 有声视频 参考多角色生视频 多镜头叙事、声画同步 | 文本、图像、视频 | 分辨率档位:720P、1080P 视频时长:[2s, 10s](整数) 固定规格:30fps、MP4(H.264编码) |
全球
在全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-r2v | 有声视频 参考多角色生视频 多镜头叙事、声画同步 | 文本、视频 | 分辨率档位:720P、1080P 视频时长:5s、10s 固定规格:30fps、MP4(H.264编码) |
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-r2v-flash | 有声视频、无声视频 参考多角色生视频 多镜头叙事、声画同步 | 文本、图像、视频 | 分辨率档位:720P、1080P 视频时长:[2s, 10s](整数) 固定规格:30fps、MP4(H.264编码) |
wan2.6-r2v | 有声视频 参考多角色生视频 多镜头叙事、声画同步 | 文本、图像、视频 | 分辨率档位:720P、1080P 视频时长:[2s, 10s](整数) 固定规格:30fps、MP4(H.264编码) |
输入参考视频1(角色为小女孩) | 输入参考视频2(角色为闹钟) | 输入提示词 | 输出视频(多角色对话) |
character1对character2说: “I’ll rely on you tomorrow morning!” character2 回答: “You can count on me!” |
万相-通用视频编辑
视频编辑通用模型。支持输入文本、图像、视频多模态数据,可执行多种视频生成与编辑任务。
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wanx2.1-vace-plus | 无声视频 多图参考、视频重绘、局部编辑、视频延展、视频画面扩展 | 文本、图像、视频 | 分辨率档位:720P 视频时长:不超过5s 固定规格:30fps、MP4(H.264编码) |
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.1-vace-plus | 无声视频 多图参考、视频重绘、局部编辑、视频延展、视频画面扩展 | 文本、图像、视频 | 分辨率档位:720P 视频时长:不超过5s 固定规格:30fps、MP4(H.264编码) |
功能一:多图参考
输入参考图1(参考主体)
输入参考图2(参考背景)
输入提示词
输出视频


视频中,一位女孩自晨雾缭绕的古老森林深处款款走出,她步伐轻盈,镜头捕捉她每一个灵动瞬间。当她站定,环顾四周葱郁林木时,她脸上绽放出惊喜与喜悦交织的笑容。这一幕,定格在了光影交错的瞬间,记录下她与大自然的美妙邂逅。
功能二:视频重绘
输入视频
输入提示词
输出视频
视频展示了一辆黑色的蒸汽朋克风格汽车,绅士驾驶着,车辆装饰着齿轮和铜管。背景是蒸汽驱动的糖果工厂和复古元素,画面复古与趣味
功能三:视频局部编辑
输入视频
输入掩码图像(白色区域表示编辑区域)
输入提示词
输出视频

视频展示了一家巴黎风情的法式咖啡馆,一只穿着西装的狮子优雅地品着咖啡。它一手端着咖啡杯,轻轻啜饮,神情惬意。咖啡馆装饰雅致,柔和的色调与温暖灯光映照着狮子所在的区域。
功能四:视频延展
输入首片段视频(1秒)
输入提示词
输出视频(延长后的视频为5秒)
一只戴着墨镜的狗在街道上滑滑板,3D卡通。
功能五:视频画面扩展
输入视频
输入提示词
输出视频
一位优雅的女士正在激情演奏小提琴,她身后是一支完整的交响乐团。
万相-数字人
仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
图生唱演和播报视频:让图像中人或卡通形象说话、唱歌、播报或表演。输入图像 + 音频,输出视频自动为人物或卡通形象匹配口型、面部表情、头部及身体动作。
模型名称 | 能力支持 | 输入模态 | 输出说明 |
wan2.2-s2v-detect | 图像检测 | 图像 | 输出检测状态:通过或未通过 |
wan2.2-s2v | 视频生成 有声视频 | 图像、音频 | 分辨率档位:480P、720P 视频时长:不超过20s(跟随音频时长) 固定规格:
|
输入示例(人物图像+音频) | 输出视频(对口型) |
输入音频: |
万相-图生动作
让图像的人参考视频动起来。输入图像 + 视频,输出的视频保持图像背景不变,参考视频做动作。
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.2-animate-move | 有声视频、无声视频(跟随输入视频而定)
| 图像、视频 | 分辨率档位:720P 视频时长:2s<时长<30s 固定规格:
|
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.2-animate-move | 有声视频、无声视频(跟随输入视频而定)
| 图像、视频 | 分辨率档位:720P 视频时长:2s<时长<30s 固定规格:
|
输入人物图像 | 输入参考视频 | 输出视频(标准模式 | 输出视频(专业模式 |
|
万相-视频换人
把视频中的人换成图像中的人。输入视频 + 替换图像,输出视频保留原视频背景,实现视频换脸、视频换角色等功能。
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.2-animate-mix | 有声视频、无声视频(跟随输入视频而定)
| 图像、视频 | 分辨率档位:720P 视频时长:2s<时长<30s 固定规格:
|
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.2-animate-mix | 有声视频、无声视频(跟随输入视频而定)
| 图像、视频 | 分辨率档位:720P 视频时长:2s<时长<30s 固定规格:
|
输入视频 | 输入待替换的人物图像 | 输出视频(标准模式 | 输出视频(专业模式 |
|
舞动人像AnimateAnyone
专为跳舞设计,把视频中跳舞的人换成图像中的人。输入图像+视频,输出视频支持两种方式:1.保留图像背景不变;2.保留视频背景不变。
图像检测API参考 | 动作模板生成API参考 | 视频生成API参考 |模型价格
模型名称 | 能力支持 | 输入模态 | 输出说明 |
animate-anyone-detect-gen2 | 图像检测 | 图像 | 输出检测状态:通过或未通过 |
animate-anyone-template-gen2 | 舞蹈视频模板生成 从跳舞视频中提取动作模板 | 视频 | 输出舞蹈动作模板ID |
animate-anyone-gen2 | 视频生成 无声视频 | 图像、视频、舞蹈动作模板ID | 视频分辨率档位:720P 视频时长:2s≤时长≤60s 固定规格:15fps、MP4(H.264编码) |
输入人物图像 | 输入跳舞视频 | 输出视频(按图片背景生成) | 输出视频(按视频背景生成) |
|
悦动人像EMO
图生唱演视频:让图像中人唱歌或表演。输入图像 + 音频,输出视频自动为人物匹配口型、面部表情以及头部动作。
模型名称 | 能力支持 | 输入模态 | 输出说明 |
emo-detect-v1 | 图像检测 | 图像 | 输出检测状态:通过或未通过 |
emo-v1 | 视频生成 有声视频 | 图像、音频 | 视频分辨率:
视频时长:不超过60s 固定规格:15fps、MP4(H.264编码) |
输入示例(人物肖像图片+音频) | 输出视频(唱歌对口型) |
输入音频: |
灵动人像LivePortrait
图生播报视频:让图像中人播报新闻、讲故事。输入图像 + 音频,输出视频自动为人物匹配口型、面部表情以及头部动作(轻微摆动)。
模型名称 | 能力支持 | 输入模态 | 输出说明 |
liveportrait-detect | 图像检测 | 图像 | 输出检测状态:通过或未通过 |
liveportrait | 视频生成 有声视频 | 图像、音频 | 视频分辨率:跟随输入图片,上限接近4K(4096x4096) 视频时长:1s<时长<180s 视频帧率:15fps≤帧率≤30fps 视频格式:MP4(H.264编码) |
输入示例(人物肖像图片+音频) | 输出视频(语音播报对口型) |
输入音频: |
表情包Emoji
仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
根据固定表情包模板制作表情包。输入图像+指定表情包ID,输出表情包视频。
模型名称 | 能力支持 | 输入模态 | 输出说明 |
emoji-detect-v1 | 图像检测 | 图像 | 输出检测状态:通过或未通过 |
emoji-v1 | 视频生成 无声视频 | 图像、表情包模板ID | 视频分辨率:固定为512x512 视频时长:不超过5s(跟随模板时长) 固定规格:15fps、MP4(H.264编码) |
输入人物肖像图片 | 输出视频(“嫌弃”表情包) |
|
声动人像VideoRetalk
仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
视频口型替换:给视频替换配音口型。输入视频+音频,输出人物口型与音频同步的视频。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
videoretalk | 有声视频 | 视频、音频 | 视频分辨率:跟随输入视频,上限接近2K(2048x2048) 视频时长:2s<时长<120s 固定规格:30fps、MP4(H.264编码) |
输入示例(人物播报视频+音频) | 输出视频(口型替换) |
输入音频: |
视频风格重绘
仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
根据固定风格模板进行视频重绘。输入视频+指定重绘风格ID,输出重绘后的视频。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
video-style-transform | 有声视频、无声视频 跟随输入视频而定 | 视频、重绘风格ID | 视频分辨率:跟随输入视频,上限接近4K(4096x4096) 视频时长:不超过30s 视频帧率:15fps≤帧率≤25fps 视频格式:MP4(H.264编码) |
输入视频 | 输出视频(重绘风格选择“日式漫画”) |










