视频生成

更新时间:
复制为 MD 格式

阿里云百炼提供丰富的视频生成模型,覆盖通用创作(文生视频、图生视频、参考生视频、视频编辑)与垂直场景(数字人对口型、图生动作、视频换人、表情包制作等)多样化需求。

模型总览

部署模式

查看各模式区别

中国内地

模型推理计算资源仅限中国内地

全球

模型推理计算资源全球调度

国际

模型推理计算资源全球调度(不含中国内地)

美国

模型推理计算资源仅限美国境内

接入地域

北京

弗吉尼亚

新加坡

弗吉尼亚

支持的模型

万相-文生视频

万相-图生视频-基于首帧

万相-图生视频-基于首尾帧

万相-参考生视频

万相-通用视频编辑

万相-数字人

万相-图生动作

万相-视频换人

舞动人像AnimateAnyone

悦动人像EMO

灵动人像LivePortrait

表情包Emoji

声动人像VideoRetalk

视频风格重绘

万相-文生视频

万相-图生视频-基于首帧

万相-参考生视频

万相-文生视频

万相-图生视频-基于首帧

万相-图生视频-基于首尾帧

万相-参考生视频

万相-通用视频编辑

万相-图生动作

万相-视频换人

万相-文生视频

万相-图生视频-基于首帧

模型选型

支持的模型

万相-文生视频

根据文本提示词生成视频。支持输入文本+音频,输出电影级多镜头视频。

API参考模型价格Prompt指南|在线体验:北京新加坡弗吉尼亚

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-t2v 推荐

有声视频

多镜头叙事、声画同步

文本、音频

分辨率档位:720P、1080P

视频时长:[2s, 15s](整数)

固定规格:30fps、MP4 (H.264编码)

wan2.5-t2v-preview 推荐

有声视频

声画同步

文本、音频

分辨率档位:480P、720P、1080P

视频时长:5s、10s

固定规格:30fps、MP4 (H.264编码) 

wan2.2-t2v-plus

无声视频

2.1模型稳定性与成功率全面提升

文本

分辨率档位:480P、1080P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wanx2.1-t2v-turbo

无声视频

文本

分辨率档位:480P、720P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wanx2.1-t2v-plus

无声视频

文本

分辨率档位:720P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

全球

全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-t2v 推荐

有声视频

多镜头叙事、声画同步

文本、音频

分辨率档位:720P、1080P

视频时长:5s、10s 、15s

固定规格:30fps、MP4 (H.264编码)

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-t2v 推荐

有声视频

多镜头叙事、声画同步

文本、音频

分辨率档位:720P、1080P

视频时长:[2s, 15s](整数)

固定规格:30fps、MP4 (H.264编码)

wan2.5-t2v-preview 推荐

有声视频

声画同步

文本、音频

分辨率档位:480P、720P、1080P

视频时长:5s、10s

固定规格:30fps、MP4 (H.264编码) 

wan2.2-t2v-plus

无声视频

2.1模型稳定性与成功率全面提升

文本

分辨率档位:480P、1080P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wan2.1-t2v-turbo

无声视频

文本

分辨率档位:480P、720P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wan2.1-t2v-plus

无声视频

文本

分辨率档位:720P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

美国

美国部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源仅限于美国境内。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-t2v-us 推荐

有声视频

多镜头叙事、声画同步

文本、音频

分辨率档位:720P、1080P

视频时长:5s、10s 、15s

固定规格:30fps、MP4 (H.264编码)

输入提示词

输出视频(wan2.6,多镜头视频)

一幅史诗级可爱的场景。一只小巧可爱的卡通小猫将军,身穿细节精致的金色盔甲,头戴一个稍大的头盔,勇敢地站在悬崖上。他骑着一匹虽小但英勇的战马,说:“青海长云暗雪山,孤城遥望玉门关。黄沙百战穿金甲,不破楼兰终不还”。悬崖下方,一支由老鼠组成的、数量庞大、无穷无尽的军队正带着临时制作的武器向前冲锋。这是一个戏剧性的、大规模的战斗场景,灵感来自中国古代的战争史诗。远处的雪山上空,天空乌云密布。整体氛围是“可爱”与“霸气”的搞笑和史诗般的融合。

万相-图生视频-基于首帧

根据给定的首帧图像生成视频。支持输入文本+首帧图像+音频,输出电影级多镜头视频。

API参考模型价格Prompt指南|在线体验:北京新加坡弗吉尼亚

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-i2v-flash 推荐

有声视频、无声视频

多镜头叙事、声画同步

文本、图像、音频

分辨率档位:720P、1080P

视频时长:[2s, 15s](整数)

固定规格:30fps、MP4 (H.264编码)

wan2.6-i2v 推荐

有声视频

多镜头叙事、声画同步

文本、图像、音频

分辨率档位:720P、1080P

视频时长:[2s, 15s](整数)

固定规格:30fps、MP4 (H.264编码)

wan2.5-i2v-preview

有声视频

声画同步

文本、图像、音频

分辨率档位:480P、720P、1080P

视频时长:5s、10s

固定规格:30fps、MP4 (H.264编码) 

wan2.2-i2v-flash

无声视频

2.1模型速度提升50%

文本、图像

分辨率档位:480P、720P、1080P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wan2.2-i2v-plus

无声视频

2.1模型稳定性与成功率全面提升

文本、图像

分辨率档位:480P、1080P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wanx2.1-i2v-plus

无声视频

文本、图像

分辨率档位:720P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wanx2.1-i2v-turbo

无声视频

文本、图像

分辨率档位:480P、720P

视频时长:3s、4s、5s

固定规格:30fps、MP4 (H.264编码) 

全球

全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-i2v 推荐

有声视频

多镜头叙事、声画同步

文本、图像、音频

分辨率档位:720P、1080P

视频时长:5s、10s 、15s

固定规格:30fps、MP4 (H.264编码)

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-i2v-flash 推荐

有声视频、无声视频

多镜头叙事、声画同步

文本、图像、音频

分辨率档位:720P、1080P

视频时长:[2s, 15s](整数)

固定规格:30fps、MP4 (H.264编码)

wan2.6-i2v 推荐

有声视频

多镜头叙事、声画同步

文本、图像、音频

分辨率档位:720P、1080P

视频时长:[2s, 15s](整数)

固定规格:30fps、MP4 (H.264编码)

wan2.5-i2v-preview

有声视频

声画同步

文本、图像、音频

分辨率档位:480P、720P、1080P

视频时长:5s、10s

固定规格:30fps、MP4 (H.264编码) 

wan2.2-i2v-flash

无声视频

2.1模型速度提升50%

文本、图像

分辨率档位:480P、720P、1080P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wan2.2-i2v-plus

无声视频

2.1模型稳定性与成功率全面提升

文本、图像

分辨率档位:480P、1080P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wan2.1-i2v-plus

无声视频

文本、图像

分辨率档位:720P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wan2.1-i2v-turbo

无声视频

文本、图像

分辨率档位:480P、720P

视频时长:3s、4s、5s

固定规格:30fps、MP4 (H.264编码) 

美国

美国部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源仅限于美国境内。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-i2v-us 推荐

有声视频

多镜头叙事、声画同步

文本、图像、音频

分辨率档位:720P、1080P

视频时长:5s、10s 、15s

固定规格:30fps、MP4 (H.264编码)

输入提示词

输入首帧图像和音频

输出视频(wan2.6,多镜头视频)

一幅都市奇幻艺术的场景。一个充满动感的涂鸦艺术角色。一个由喷漆所画成的少年,正从一面混凝土墙上活过来。他一边用极快的语速演唱一首英文rap,一边摆着一个经典的、充满活力的说唱歌手姿势。场景设定在夜晚一个充满都市感的铁路桥下。灯光来自一盏孤零零的街灯,营造出电影般的氛围,充满高能量和惊人的细节。视频的音频部分完全由他的rap构成,没有其他对话或杂音。

rap-转换自-png

输入音频:

万相-图生视频-基于首尾帧

根据给定的首帧图像和尾帧图像,生成过渡自然的视频。支持输入文本+首帧图像+尾帧图像+音频,输出电影级多镜头视频。

API参考模型价格Prompt指南

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-kf2v-flash 推荐

无声视频

2.1模型稳定性与成功率全面提升

文本、图像

分辨率档位:480P、720P、1080P

视频时长:5s

固定规格:30fps、MP4(H.264编码)

wanx2.1-kf2v-plus

无声视频

文本、图像

分辨率档位:720P

视频时长:5s

固定规格:30fps、MP4(H.264编码)

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

能力支持

输入模态

输出视频规格

wan2.1-kf2v-plus

无声视频

文本、图像

分辨率档位:720P

视频时长:5s

固定规格:30fps、MP4(H.264编码)

输入首帧图像

输入尾帧图像

输入提示词

输出视频

first_frame

last_frame

写实风格,一只黑色小猫好奇地看向天空,镜头从平视逐渐上升,最后俯拍小猫好奇的眼神。

万相-参考生视频

复刻视频中的角色的形象和声音表演新剧本。输入视频+文本提示词,输出视频在保持角色一致性的同时,生成多镜头、声画同步的视频。

API参考模型价格Prompt指南

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-r2v-flash 推荐

有声视频、无声视频

参考多角色生视频

多镜头叙事、声画同步

文本、图像、视频

分辨率档位:720P、1080P

视频时长:[2s, 10s](整数)

固定规格:30fps、MP4(H.264编码)

wan2.6-r2v

有声视频

参考多角色生视频

多镜头叙事、声画同步

文本、图像、视频

分辨率档位:720P、1080P

视频时长:[2s, 10s](整数)

固定规格:30fps、MP4(H.264编码)

全球

全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-r2v 推荐

有声视频

参考多角色生视频

多镜头叙事、声画同步

文本、视频

分辨率档位:720P、1080P

视频时长:5s、10s

固定规格:30fps、MP4(H.264编码)

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-r2v-flash 推荐

有声视频、无声视频

参考多角色生视频

多镜头叙事、声画同步

文本、图像、视频

分辨率档位:720P、1080P

视频时长:[2s, 10s](整数)

固定规格:30fps、MP4(H.264编码)

wan2.6-r2v

有声视频

参考多角色生视频

多镜头叙事、声画同步

文本、图像、视频

分辨率档位:720P、1080P

视频时长:[2s, 10s](整数)

固定规格:30fps、MP4(H.264编码)

输入参考视频1(角色为小女孩)

输入参考视频2(角色为闹钟)

输入提示词

输出视频(多角色对话)

character1character2说: “I’ll rely on you tomorrow morning!” character2 回答: “You can count on me!”

万相-通用视频编辑

视频编辑通用模型。支持输入文本、图像、视频多模态数据,可执行多种视频生成与编辑任务。

API参考模型价格

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wanx2.1-vace-plus

无声视频

多图参考、视频重绘、局部编辑、视频延展、视频画面扩展

文本、图像、视频

分辨率档位:720P

视频时长:不超过5s

固定规格:30fps、MP4(H.264编码)

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

能力支持

输入模态

输出视频规格

wan2.1-vace-plus

无声视频

多图参考、视频重绘、局部编辑、视频延展、视频画面扩展

文本、图像、视频

分辨率档位:720P

视频时长:不超过5s

固定规格:30fps、MP4(H.264编码)

  • 功能一:多图参考

    输入参考图1(参考主体)

    输入参考图2(参考背景)

    输入提示词

    输出视频

    image

    image

    视频中,一位女孩自晨雾缭绕的古老森林深处款款走出,她步伐轻盈,镜头捕捉她每一个灵动瞬间。当她站定,环顾四周葱郁林木时,她脸上绽放出惊喜与喜悦交织的笑容。这一幕,定格在了光影交错的瞬间,记录下她与大自然的美妙邂逅。

  • 功能二:视频重绘

    输入视频

    输入提示词

    输出视频

    视频展示了一辆黑色的蒸汽朋克风格汽车,绅士驾驶着,车辆装饰着齿轮和铜管。背景是蒸汽驱动的糖果工厂和复古元素,画面复古与趣味

  • 功能三:视频局部编辑

    输入视频

    输入掩码图像(白色区域表示编辑区域)

    输入提示词

    输出视频

    mask

    视频展示了一家巴黎风情的法式咖啡馆,一只穿着西装的狮子优雅地品着咖啡。它一手端着咖啡杯,轻轻啜饮,神情惬意。咖啡馆装饰雅致,柔和的色调与温暖灯光映照着狮子所在的区域。

  • 功能四:视频延展

    输入首片段视频(1秒)

    输入提示词

    输出视频(延长后的视频为5秒)

    一只戴着墨镜的狗在街道上滑滑板,3D卡通。

  • 功能五:视频画面扩展

    输入视频

    输入提示词

    输出视频

    一位优雅的女士正在激情演奏小提琴,她身后是一支完整的交响乐团

万相-数字人

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

图生唱演和播报视频:让图像中人或卡通形象说话、唱歌、播报或表演。输入图像 + 音频,输出视频自动为人物或卡通形象匹配口型、面部表情、头部及身体动作。

图像检测API参考视频生成API参考模型价格

模型名称

能力支持

输入模态

输出说明

wan2.2-s2v-detect

图像检测

图像

输出检测状态:通过或未通过

wan2.2-s2v

视频生成

有声视频

图像、音频

分辨率档位:480P、720P

视频时长:不超过20s(跟随音频时长)

固定规格:

  • 480P:16fps、MP4(H.264编码)

  • 720P:30fps、MP4(H.264编码)

输入示例(人物图像+音频)

输出视频(对口型)

p1001125-转换自-jpeg

输入音频:

万相-图生动作

让图像的人参考视频动起来。输入图像 + 视频,输出的视频保持图像背景不变,参考视频做动作。

API参考模型价格

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-animate-move

有声视频、无声视频(跟随输入视频而定)

  • 标准模式wan-std:生成速度快,性价比高

  • 专业模式wan-pro:效果更接近真实拍摄

图像、视频

分辨率档位:720P

视频时长:2s<时长<30s

固定规格:

  • 标准模式wan-std:15fps、MP4(H.264编码)

  • 专业模式wan-pro:25fps、MP4(H.264编码)

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-animate-move

有声视频、无声视频(跟随输入视频而定)

  • 标准模式wan-std:生成速度快,性价比高

  • 专业模式wan-pro:效果更接近真实拍摄

图像、视频

分辨率档位:720P

视频时长:2s<时长<30s

固定规格:

  • 标准模式wan-std:15fps、MP4(H.264编码)

  • 专业模式wan-pro:25fps、MP4(H.264编码)

输入人物图像

输入参考视频

输出视频(标准模式wan-std

输出视频(专业模式wan-pro

move_input_image

万相-视频换人

把视频中的人换成图像中的人。输入视频 + 替换图像,输出视频保留原视频背景,实现视频换脸、视频换角色等功能。

API参考模型价格

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-animate-mix

有声视频、无声视频(跟随输入视频而定)

  • 标准模式wan-std:生成速度快,性价比高

  • 专业模式wan-pro:效果更接近真实拍摄

图像、视频

分辨率档位:720P

视频时长:2s<时长<30s

固定规格:

  • 标准模式wan-std:15fps、MP4(H.264编码)

  • 专业模式wan-pro:25fps、MP4(H.264编码)

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-animate-mix

有声视频、无声视频(跟随输入视频而定)

  • 标准模式wan-std:生成速度快,性价比高

  • 专业模式wan-pro:效果更接近真实拍摄

图像、视频

分辨率档位:720P

视频时长:2s<时长<30s

固定规格:

  • 标准模式wan-std:15fps、MP4(H.264编码)

  • 专业模式wan-pro:25fps、MP4(H.264编码)

输入视频

输入待替换的人物图像

输出视频(标准模式wan-std

输出视频(专业模式wan-pro

mix_input_image

舞动人像AnimateAnyone

说明

专为跳舞设计,把视频中跳舞的人换成图像中的人。输入图像+视频,输出视频支持两种方式:1.保留图像背景不变;2.保留视频背景不变。

图像检测API参考 | 动作模板生成API参考 | 视频生成API参考模型价格

模型名称

能力支持

输入模态

输出说明

animate-anyone-detect-gen2

图像检测

图像

输出检测状态:通过或未通过

animate-anyone-template-gen2

舞蹈视频模板生成

从跳舞视频中提取动作模板

视频

输出舞蹈动作模板ID

animate-anyone-gen2

视频生成

无声视频

图像、视频、舞蹈动作模板ID

视频分辨率档位:720P

视频时长:2s时长60s

固定规格:15fps、MP4(H.264编码)

输入人物图像

输入跳舞视频

输出视频(按图片背景生成)

输出视频(按视频背景生成)

05-9_16

悦动人像EMO

说明
  • 仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

  • 推荐使用万相-数字人替换悦动人像EMO。前者效果更佳,悦动人像EMO成本较低。

图生唱演视频:让图像中人唱歌或表演。输入图像 + 音频,输出视频自动为人物匹配口型、面部表情以及头部动作。

图像检测API参考视频生成API参考模型价格

模型名称

能力支持

输入模态

输出说明

emo-detect-v1

图像检测

图像

输出检测状态:通过或未通过

emo-v1

视频生成

有声视频

图像、音频

视频分辨率:

  • 1:1画幅(宽高比):固定为512×512

  • 3:4画幅(宽高比):固定为512×704

视频时长:不超过60s

固定规格:15fps、MP4(H.264编码)

输入示例(人物肖像图片+音频)

输出视频(唱歌对口型)

上春山

输入音频:

灵动人像LivePortrait

说明
  • 仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

  • 推荐使用万相-数字人替换灵动人像LivePortrait。前者效果更佳,灵动人像LivePortrait成本较低。请注意,当需要长视频(>20秒),可选择灵动人像LivePortrait。

图生播报视频:让图像中人播报新闻、讲故事。输入图像 + 音频,输出视频自动为人物匹配口型、面部表情以及头部动作(轻微摆动)。

图像检测API参考视频生成API参考模型价格

模型名称

能力支持

输入模态

输出说明

liveportrait-detect

图像检测

图像

输出检测状态:通过或未通过

liveportrait

视频生成

有声视频

图像、音频

视频分辨率:跟随输入图片,上限接近4K(4096x4096)

视频时长:1s<时长<180s

视频帧率:15fps帧率30fps

视频格式:MP4(H.264编码)

输入示例(人物肖像图片+音频)

输出视频(语音播报对口型)

素描男孩

输入音频:

表情包Emoji

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

根据固定表情包模板制作表情包。输入图像+指定表情包ID,输出表情包视频。

图像检测API参考视频生成API参考模型价格

模型名称

能力支持

输入模态

输出说明

emoji-detect-v1

图像检测

图像

输出检测状态:通过或未通过

emoji-v1

视频生成

无声视频

图像、表情包模板ID

视频分辨率:固定为512x512

视频时长:不超过5s(跟随模板时长)

固定规格:15fps、MP4(H.264编码)

输入人物肖像图片

输出视频(“嫌弃”表情包)

image.png

声动人像VideoRetalk

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

视频口型替换:给视频替换配音口型。输入视频+音频,输出人物口型与音频同步的视频。

API参考模型价格

模型名称

能力支持

输入模态

输出视频规格

videoretalk

有声视频

视频、音频

视频分辨率:跟随输入视频,上限接近2K(2048x2048)

视频时长:2s<时长<120s

固定规格:30fps、MP4(H.264编码)

输入示例(人物播报视频+音频)

输出视频(口型替换)

输入音频:

视频风格重绘

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

根据固定风格模板进行视频重绘。输入视频+指定重绘风格ID,输出重绘后的视频。

API参考模型价格

模型名称

能力支持

输入模态

输出视频规格

video-style-transform

有声视频、无声视频

跟随输入视频而定

视频、重绘风格ID

视频分辨率:跟随输入视频,上限接近4K(4096x4096)

视频时长:不超过30s

视频帧率:15fps帧率25fps

视频格式:MP4(H.264编码)

输入视频

输出视频(重绘风格选择“日式漫画”)