视频生成

阿里云百炼提供多样化的视频模型选择,涵盖文生视频、图生视频(通用/舞蹈/唱演/播报等)、视频编辑(通用/视频风格重绘/视频口型替换)等应用场景。

模型总览

类别

说明

文生视频

  • 文生视频:一句话生成视频,视频风格丰富,画质细腻。

图生视频

  • 首帧生视频:将输入图片作为视频首帧,并根据提示词生成视频。

  • 首尾帧生视频:只需要提供首帧和尾帧图片,便能根据提示词生成一段丝滑流畅的动态视频。

  • 多图生视频:支持输入一张或多张图片,参考图片中的主体或背景,并结合提示词生成视频。

  • 图+动作模板生成视频:

  • 图+音频生成对口型视频

    • 通义万相-数字人基于人物图片和音频,动作幅度大且自然,支持全身、半身、肖像等多种画幅,适合唱歌、表演等场景。

    • 悦动人像EMO基于人物图片和音频,口型与表情表现力强,支持肖像、半身,适合人物特写场景。

    • 灵动人像LivePortrait基于人物图片和音频,适合语音播报场景。

  • 图+表情模板生成表情包视频:表情包Emoji基于人脸图片和预设的人脸动态模板,生成人脸表情包视频。

视频编辑

  • 通用视频编辑:基于输入的文本提示词、图片和视频,可执行多种视频编辑任务。例如,通过提取输入视频的运动特征,并结合提示词生成新的视频。

  • 视频口型替换:声动人像VideoRetalk基于人物视频和音频进行视频口型替换,适合短视频制作、视频翻译等场景。

  • 视频风格转换:视频风格重绘可将视频转换为日式漫画、美式漫画等八种风格。

支持的模型

文生视频

通义万相-文生视频模型通过一句话即可生成视频,视频呈现丰富的艺术风格及影视级画质。API参考在线体验

计费规则:按成功生成的视频秒数计费,失败不计费也不占用免费额度。

中国大陆(北京)

模型名称

说明

单价

免费额度(注)

有效期:阿里云百炼开通后90天内

wan2.5-t2v-preview推荐

万相2.5 preview。支持自动配音和传入自定义音频文件。

480P:0.3元/秒

720P:0.6元/秒

1080P:1元/秒

50

wan2.2-t2v-flash 推荐

万相2.2极速版。指令理解更准,运动稳定流畅生成,生成速度更快。

480P:0.10元/秒

720P:0.20元/秒

50

wan2.2-t2v-plus 推荐

万相2.2专业版。指令理解更准,运动稳定流畅生成,生成细节更丰富。

480P:0.14元/秒

1080P:0.70元/秒

50

wanx2.1-t2v-turbo

万相2.1极速版。性价比高。

0.24元/秒

200

wanx2.1-t2v-plus

万相2.1专业版。画面更具质感。

0.70元/秒

200

国际(新加坡)

模型名称

说明

单价

免费额度(注)

wan2.5-t2v-preview推荐

万相2.5 preview。支持自动配音和传入自定义音频文件。

480P:0.366961元/秒

720P:0.733923元/秒

1080P:1.100885元/秒

无免费额度

wan2.2-t2v-plus 推荐

万相2.2专业版。在画面细节表现、运动稳定性方面均有显著提升。

480P:0.146785元/秒

1080P:0.733924元/秒

无免费额度

wan2.1-t2v-turbo

万相2.1极速版。生成速度快,表现均衡。

0.264213元/秒

无免费额度

wan2.1-t2v-plus

万相2.1专业版。生成细节丰富,画面更具质感。

0.733924元/秒

无免费额度

输入示例

输出视频(wan2.5)

输入提示词:一幅史诗级可爱的场景。一只小巧可爱的卡通小猫将军,身穿细节精致的金色盔甲,头戴一个稍大的头盔,勇敢地站在悬崖上。他骑着一匹虽小但英勇的战马,说:“青海长云暗雪山,孤城遥望玉门关。黄沙百战穿金甲,不破楼兰终不还”。悬崖下方,一支由老鼠组成的、数量庞大、无穷无尽的军队正带着临时制作的武器向前冲锋。这是一个戏剧性的、大规模的战斗场景,灵感来自中国古代的战争史诗。远处的雪山上空,天空乌云密布。整体氛围是“可爱”与“霸气”的搞笑和史诗般的融合。

输入音频

图生视频-基于首帧

通义万相-图生视频模型将输入图片作为视频首帧,再根据提示词生成视频。视频呈现丰富的艺术风格及影视级画质。API参考在线体验

计费规则:按成功生成的视频秒数计费,失败不计费也不占用免费额度。

中国大陆(北京)

模型名称

说明

单价

免费额度(注)

有效期:阿里云百炼开通后90天内

wan2.5-i2v-preview推荐

万相2.5 preview。支持自动配音和传入自定义音频文件。

480P:0.3元/秒

720P:0.6元/秒

1080P:1元/秒

50

wan2.2-i2v-flash 推荐

万相2.2专业版。

极致生成速度,指令理解与运镜控制更准,画面元素保持一致,稳定性与成功率全面提升。

480P:0.10元/秒

720P:0.20元/秒

1080P:0.48元/秒

50

wan2.2-i2v-plus 推荐

万相2.2专业版。

指令理解更准,运镜可控,画面元素保持一致,稳定性与成功率全面提升,生成内容更丰富。

480P:0.14元/秒

1080P:0.70元/秒

50

wanx2.1-i2v-turbo

万相2.1极速版。性价比高。

0.24元/秒

200

wanx2.1-i2v-plus

万相2.1专业版。画面更具质感。

0.70元/秒

200

国际(新加坡)

模型名称

说明

单价

免费额度(注)

wan2.5-i2v-preview推荐

万相2.5 preview。支持自动配音和传入自定义音频文件。

480P:0.366961元/秒

720P:0.733923元/秒

1080P:1.100885元/秒

无免费额度

wan2.2-i2v-flash 推荐

万相2.2极速版。极致生成速度,在画面细节表现、运动稳定性方面均有显著提升。

480P:0.110089元/秒

720P:0.264213元/秒

无免费额度

wan2.2-i2v-plus 推荐

万相2.2专业版。在画面细节表现、运动稳定性方面均有显著提升。

480P:0.146785元/秒

1080P:0.733924元/秒

无免费额度

wan2.1-i2v-turbo

万相2.1极速版。生成速度快,表现均衡。

0.264213元/秒

无免费额度

wan2.1-i2v-plus

万相2.1专业版。生成细节丰富,画面更具质感。

0.733924元/秒

无免费额度

输入首帧图像和音频

输出视频(wan2.5)

rap-转换自-png

输入音频

输入提示词:一幅都市奇幻艺术的场景。一个充满动感的涂鸦艺术角色。一个由喷漆所画成的少年,正从一面混凝土墙上活过来。他一边用极快的语速演唱一首英文rap,一边摆着一个经典的、充满活力的说唱歌手姿势。场景设定在夜晚一个充满都市感的铁路桥下。灯光来自一盏孤零零的街灯,营造出电影般的氛围,充满高能量和惊人的细节。视频的音频部分完全由少年的rap构成,没有其他对话或杂音。

图生视频-基于首尾帧

通义万相-首尾帧生视频模型,只需要提供首帧和尾帧图片,便能根据提示词生成一段丝滑流畅的动态视频。API参考在线体验

计费规则:按成功生成的视频秒数计费,失败不计费也不占用免费额度。

中国大陆(北京)

模型名称

说明

单价

免费额度(注)

有效期:阿里云百炼开通后90天内

wan2.2-kf2v-flash

万相2.2极速版

480P:0.10元/秒

720P:0.20元/秒

1080P:0.48元/秒

50

wanx2.1-kf2v-plus

万相2.1专业版

720P:0.70元/秒

200

国际(新加坡)

模型名称

单价

免费额度(注)

wan2.1-kf2v-plus

0.733924元/秒

无免费额度

输入示例

输出视频

首帧图片

尾帧图片

提示词

first_frame

last_frame

写实风格,一只黑色小猫好奇地看向天空,镜头从平视逐渐上升,最后俯拍小猫好奇的眼神。

通用视频编辑

通义万相-视频编辑统一模型支持多模态输入,包括文本、图像和视频,能够执行视频生成与通用编辑任务。API参考

计费规则:按成功生成的视频秒数计费,失败不计费也不占用免费额度。

中国大陆(北京)

模型名称

单价

免费额度

wanx2.1-vace-plus

0.70元/秒

50

有效期:百炼开通后90天内

国际(新加坡)

模型名称

单价

免费额度(注)

wan2.1-vace-plus

0.733924元/秒

无免费额度

模型功能

输入参考图

输入提示词

输出视频

多图参考

参考图1(参考主体)

image

参考图2(参考背景)

image

视频中,一位女孩自晨雾缭绕的古老森林深处款款走出,她步伐轻盈,镜头捕捉她每一个灵动瞬间。当女孩站定,环顾四周葱郁林木时,她脸上绽放出惊喜与喜悦交织的笑容。这一幕,定格在了光影交错的瞬间,记录下女孩与大自然的美妙邂逅。

输出视频

视频重绘

视频展示了一辆黑色的蒸汽朋克风格汽车,绅士驾驶着,车辆装饰着齿轮和铜管。背景是蒸汽驱动的糖果工厂和复古元素,画面复古与趣味

局部编辑

输入视频

输入掩码图像(白色区域表示编辑区域)

mask

视频展示了一家巴黎风情的法式咖啡馆,一只穿着西装的狮子优雅地品着咖啡。它一手端着咖啡杯,轻轻啜饮,神情惬意。咖啡馆装饰雅致,柔和的色调与温暖灯光映照着狮子所在的区域。

根据提示词修改编辑区域的内容

视频延展

输入首片段视频(1秒)

一只戴着墨镜的狗在街道上滑板,3D卡通。

输出延长后的视频(5秒)

视频画面扩展

一位优雅的女士正在激情演奏小提琴,她身后是一支完整的交响乐团

通义万相-数字人

基于单张人物图片和音频,生成动作自然的说话、唱歌或表演视频。使用时需依次调用下述模型。wan2.2-s2v 图像检测 | wan2.2-s2v 视频生成

说明

仅支持中国大陆(北京)地域。

模型名称

模型简介

计费单价

免费额度

wan2.2-s2v-detect

检查输入图像是否满足要求(如清晰度、单人、正面)。

0.004元/张

免费额度:200

有效期:阿里云百炼开通后90天内

wan2.2-s2v

根据检测通过的图片和一段音频,生成人物动态视频。

480P:0.5元/秒

720P:0.9元/秒

免费额度:100

有效期:阿里云百炼开通后90天内

输入示例

输出视频

输入图片:

input_image

输入音频:

通义万相-图生动作

提供标准和专业两种服务模式,基于人物图片和模板视频,将视频角色的动作、表情迁移到图片角色中,生成人物动作视频,赋予图片角色动态表现力。API参考

说明

仅支持中国大陆(北京)地域。

模型名称

模型服务

服务简介

计费单价

免费额度(查看)

wan2.2-animate-move

图生动作-标准std

生成速度快,满足基础动画演示等轻需求,性价比高。

0.4元/秒

两种服务共50

图生动作-专业pro

动画流畅度高,动作表情过渡自然,效果更接近真实拍摄。

0.6元/秒

人物图片

模板视频

输出视频(图生动作-标准std)

输出视频(图生动作-专业pro)

move_input_image

通义万相-视频换人

提供标准和专业两种服务模式,基于人物图片和模板视频,将视频中的主角替换为图片中的角色,同时保留原视频的场景、光照和色调。API 参考

说明

仅支持中国大陆(北京)地域。

模型名称

模型服务

服务简介

计费单价

免费额度(查看)

wan2.2-animate-mix

视频换人-标准std

生成速度快,满足基础动画演示等轻需求,性价比高。

0.6元/秒

两种服务共50

视频换人-专业pro

动画流畅度高,动作表情过渡自然,效果更接近真实拍摄。

0.9元/秒

人物图片

模板视频

输出视频(视频换人-标准std)

输出视频(视频换人-专业pro)

mix_input_image

舞动人像AnimateAnyone

基于人物图片和人物动作模板,生成人物动作视频。直接使用时需依次调用下述三个模型。AnimateAnyone图像检测 API详情 | AnimateAnyone 动作模板生成AnimateAnyone视频生成API详情

说明

仅支持中国大陆(北京)地域。

模型名称

说明

单价

免费额度

animate-anyone-detect-gen2

检测输入的图片是否符合要求

0.004元/张

200

有效期:百炼开通后90天内

animate-anyone-template-gen2

从人物运动视频中提取人物动作并生成动作模板

0.08元/秒

1800

有效期:百炼开通后90天内

animate-anyone-gen2

基于人物图片和动作模板生成人物动作视频

下面两个模型支持独立部署。模型部署后,模型调用参考这两个API详情。AnimateAnyone图像检测 API详情 | AnimateAnyone视频生成API详情

模型名称

说明

单价

免费额度

animate-anyone-detect

检测输入图片是否符合要求

当前仅支持部署后调用,仅收取部署费用。部署单价:

  • 10000元/算力单元/月

  • 20元/算力单元/小时

animate-anyone

基于人物图片和动作模板生成人物动作视频

输入:人物图片

输入:动作视频

输出(按图片背景生成)

输出(按视频背景生成)

04-9_16

说明
  • 以上示例,由集成了“舞动人像AnimateAnyone”的通义APP生成。

  • 舞动人像AnimateAnyone模型的生成内容为视频画面,不包含音频。

悦动人像EMO

基于人物肖像图片和人声音频文件,生成人物肖像动态视频。使用时需依次调用下述模型。EMO 图像检测 | EMO 视频生成

emo-detect-v1emo-detect、emo-v1emo在调用方式及计费方式中有区别,模型效果完全相同。
说明

仅支持中国大陆(北京)地域。

模型名称

说明

单价

免费额度

emo-detect-v1

检测输入的图片是否符合要求,不需要部署,可直接调用

0.004元/张

200

有效期:百炼开通后90天内

emo-v1

生成人物肖像动态视频,不需要部署,可直接调用

  • 生成1:1画幅视频:0.08元/秒

  • 生成3:4画幅视频:0.16元/秒

1800

有效期:百炼开通后90天内

emo-detect

检测输入的图片是否符合要求,仅支持部署后调用

当前仅支持部署后调用,仅收取部署费用。

部署单价:20元/算力单元/小时

emo

生成人物肖像动态视频,仅支持部署后调用

输入物:人物肖像图片+人声音频文件

输出物:人物肖像动态视频

人物肖像:

上春山

人声音频:参见右侧视频

人物视频:

使用动作风格强度:活泼("style_level": "active")

灵动人像LivePortrait

基于人物肖像图片和人声音频文件,快速、轻量地生成人物肖像动态视频。与悦动人像EMO模型相比,生成速度快、价格低,但是生成效果不如悦动人像EMO模型。使用时需依次调用下述两个模型。LivePortrait 图像检测 | LivePortrait 视频生成

说明

仅支持中国大陆(北京)地域。

模型名称

说明

单价

免费额度

liveportrait-detect

检测输入的图片是否符合要求

0.004元/张

200

有效期:百炼开通后90天内

liveportrait

生成人物肖像动态视频

0.02元/秒

1800

有效期:百炼开通后90天内

输入物:人物肖像图片+人声音频文件

输出物:人物肖像动态视频

人物肖像:

Emoji男孩

人声音频:参见右侧视频

人物视频:

表情包Emoji

基于人脸图片和预设的人脸动态模板,生成人脸动态视频。该能力可用于表情包制作、视频素材生成等场景。使用时需依次调用下述模型。Emoji 图像检测Emoji 视频生成

说明

仅支持中国大陆(北京)地域。

模型名称

说明

单价

免费额度

emoji-detect-v1

检测输入图片是否符合要求

0.004元/张

200

有效期:百炼开通后90天内

emoji-v1

基于人物肖像图片和指定的表情包模板生成人物同款表情

0.08元/秒

500

有效期:百炼开通后90天内

输入:人物肖像图片

输出:人物肖像动态视频

image.png

“开心”表情的模板序列:("input.driven_id": "mengwa_kaixin")

声动人像VideoRetalk

基于人物视频和人声音频,生成人物讲话口型与输入音频相匹配的视频。使用时需调用下述模型。API参考

说明

仅支持中国大陆(北京)地域。

模型名称

说明

单价

免费额度

videoretalk

生成人物讲话口型与输入音频相匹配的新视频

0.08元/秒

1800

有效期:百炼开通后90天内

输入示例

输出示例

人声音频:

视频风格重绘

支持根据用户输入的文字内容,生成符合语义描述的不同风格的视频,或者根据用户输入的视频,进行视频风格重绘。API参考

说明

仅支持中国大陆(北京)地域。

模型名称

说明

单价

免费额度

video-style-transform

将输入视频转换为日式漫画、美式漫画等风格

720P

0.5元/秒

600

有效期:百炼开通后90天内

540P

0.2元/秒

输入视频

输出视频(日式漫画)