视频生成

阿里云百炼提供多样化的视频模型选择,涵盖文生视频、图生视频(通用/舞蹈/唱演/播报等)、视频编辑(通用/视频风格重绘/视频口型替换)等应用场景。

模型总览

类别

说明

文生视频

  • 文生视频:一句话生成视频,视频风格丰富,画质细腻。

图生视频

  • 首帧生视频:将输入图片作为视频首帧,并根据提示词生成视频。

  • 首尾帧生视频:只需要提供首帧和尾帧图片,便能根据提示词生成一段丝滑流畅的动态视频。

  • 多图生视频:支持输入一张或多张图片,参考图片中的主体或背景,并结合提示词生成视频。

  • 图+动作模板生成舞蹈视频:舞动人像AnimateAnyone基于人物图片和动作视频生成舞蹈视频。

  • 图+音频生成对口型视频

  • 图+表情模板生成表情包视频:表情包Emoji基于人脸图片和预设的人脸动态模板,生成人脸表情包视频。

视频编辑

  • 通用视频编辑:基于输入的文本提示词、图片和视频,可执行多种视频编辑任务。例如,通过提取输入视频的运动特征,并结合提示词生成新的视频。

  • 视频口型替换:声动人像VideoRetalk基于人物视频和音频进行视频口型替换,适合短视频制作、视频翻译等场景。

  • 视频风格转换:视频风格重绘可将视频转换为日式漫画、美式漫画等八种风格。

支持的模型

文生视频

通义万相-文生视频模型通过一句话即可生成视频,视频呈现丰富的艺术风格及影视级画质。API参考在线体验

模型名称

说明

单价

免费额度(注)

有效期:阿里云百炼开通后180天内

wan2.2-t2v-plus 推荐

万相2.2专业版。在画面细节表现、运动稳定性方面均有显著提升。

480P:0.14元/秒

1080P:0.70元/秒

50

wanx2.1-t2v-turbo

万相2.1极速版。文生视频,性价比高。

0.24元/秒

200

wanx2.1-t2v-plus

万相2.1专业版。生成细节丰富,画面更具质感。

0.70元/秒

200

输入示例

输出视频

输入提示词:一只小猫在月光下奔跑

图生视频-基于首帧

通义万相-图生视频模型将输入图片作为视频首帧,再根据提示词生成视频。视频呈现丰富的艺术风格及影视级画质。API参考在线体验

模型名称

说明

单价

免费额度(注)

有效期:阿里云百炼开通后180天内

wan2.2-i2v-plus 推荐

万相2.2专业版。在画面细节表现、运动稳定性方面均有显著提升。

480P:0.14元/秒

1080P:0.70元/秒

50

wanx2.1-i2v-turbo

万相2.1极速版。图生视频,性价比高。

0.24元/秒

200

wanx2.1-i2v-plus

万相2.1专业版。生成细节丰富,画面更具质感。

0.70元/秒

200

输入示例

输出视频

输入提示词:一只猫在草地上奔跑

输入图片:

image

输出视频:将图片作为视频的第一帧,再根据提示词生成视频。

模型:wanx2.1-i2v-turbo。

图生视频-基于首尾帧

通义万相-首尾帧生视频模型,只需要提供首帧和尾帧图片,便能根据提示词生成一段丝滑流畅的动态视频。API参考在线体验

模型名称

单价

免费额度

wanx2.1-kf2v-plus

0.70元/秒

200

有效期:百炼开通后180天内

输入示例

输出视频

首帧图片

尾帧图片

提示词

first_frame

last_frame

写实风格,一只黑色小猫好奇地看向天空,镜头从平视逐渐上升,最后俯拍小猫好奇的眼神。

通用视频编辑

通义万相-视频编辑统一模型支持多模态输入,包括文本、图像和视频,能够执行视频生成与通用编辑任务。API参考

模型名称

单价

免费额度

wanx2.1-vace-plus

0.70元/秒

50

有效期:百炼开通后180天内

视频编辑统一模型支持以下功能:

模型功能

输入参考图

输入提示词

输出视频

多图参考

参考图1(参考主体)

image

参考图2(参考背景)

image

视频中,一位女孩自晨雾缭绕的古老森林深处款款走出,她步伐轻盈,镜头捕捉她每一个灵动瞬间。当女孩站定,环顾四周葱郁林木时,她脸上绽放出惊喜与喜悦交织的笑容。这一幕,定格在了光影交错的瞬间,记录下女孩与大自然的美妙邂逅。

输出视频

视频重绘

视频展示了一辆黑色的蒸汽朋克风格汽车,绅士驾驶着,车辆装饰着齿轮和铜管。背景是蒸汽驱动的糖果工厂和复古元素,画面复古与趣味

局部编辑

输入视频

输入掩码图像(白色区域表示编辑区域)

mask

视频展示了一家巴黎风情的法式咖啡馆,一只穿着西装的狮子优雅地品着咖啡。它一手端着咖啡杯,轻轻啜饮,神情惬意。咖啡馆装饰雅致,柔和的色调与温暖灯光映照着狮子所在的区域。

根据提示词修改编辑区域的内容

视频延展

输入首片段视频(1秒)

一只戴着墨镜的狗在街道上滑滑板,3D卡通。

输出延长后的视频(5秒)

视频画面扩展

一位优雅的女士正在激情演奏小提琴,她身后是一支完整的交响乐团

舞动人像AnimateAnyone

基于人物图片和人物动作模板,生成人物动作视频。直接使用时需依次调用下述三个模型。AnimateAnyone图像检测 API详情 | AnimateAnyone 动作模板生成AnimateAnyone视频生成API详情

模型名称

说明

单价

免费额度

animate-anyone-detect-gen2

检测输入的图片是否符合要求

0.004元/张

200

有效期:百炼开通后180天内

animate-anyone-template-gen2

从人物运动视频中提取人物动作并生成动作模板

0.08元/秒

1800

有效期:百炼开通后180天内

animate-anyone-gen2

基于人物图片和动作模板生成人物动作视频

下面两个模型支持独立部署。模型部署后,模型调用参考这两个API详情。AnimateAnyone图像检测 API详情 | AnimateAnyone视频生成API详情

模型名称

说明

单价

免费额度

animate-anyone-detect

检测输入图片是否符合要求

当前仅支持部署后调用,仅收取部署费用。部署单价:

  • 10000元/算力单元/月

  • 20元/算力单元/小时

animate-anyone

基于人物图片和动作模板生成人物动作视频

输入:人物图片

输入:动作视频

输出(按图片背景生成)

输出(按视频背景生成)

04-9_16

说明
  • 以上示例,由集成了“舞动人像AnimateAnyone”的通义APP生成。

  • 舞动人像AnimateAnyone模型的生成内容为视频画面,不包含音频。

悦动人像EMO

基于人物肖像图片和人声音频文件,生成人物肖像动态视频。使用时需依次调用下述模型。EMO 图像检测 | EMO 视频生成

emo-detect-v1emo-detect、emo-v1emo在调用方式及计费方式中有区别,模型效果完全相同。

模型名称

说明

单价

免费额度

emo-detect-v1

检测输入的图片是否符合要求,不需要部署,可直接调用

0.004元/张

200

有效期:百炼开通后180天内

emo-v1

生成人物肖像动态视频,不需要部署,可直接调用

  • 生成1:1画幅视频:0.08元/秒

  • 生成3:4画幅视频:0.16元/秒

1800

有效期:百炼开通后180天内

emo-detect

检测输入的图片是否符合要求,仅支持部署后调用

当前仅支持部署后调用,仅收取部署费用。

部署单价:20元/算力单元/小时

emo

生成人物肖像动态视频,仅支持部署后调用

输入物:人物肖像图片+人声音频文件

输出物:人物肖像动态视频

人物肖像:

上春山

人声音频:参见右侧视频

人物视频:

使用动作风格强度:活泼("style_level": "active")

灵动人像LivePortrait

基于人物肖像图片和人声音频文件,快速、轻量地生成人物肖像动态视频。与悦动人像EMO模型相比,生成速度快、价格低,但是生成效果不如悦动人像EMO模型。使用时需依次调用下述两个模型。LivePortrait 图像检测 | LivePortrait 视频生成

模型名称

说明

单价

免费额度

liveportrait-detect

检测输入的图片是否符合要求

0.004元/张

200

有效期:百炼开通后180天内

liveportrait

生成人物肖像动态视频

0.02元/秒

1800

有效期:百炼开通后180天内

输入物:人物肖像图片+人声音频文件

输出物:人物肖像动态视频

人物肖像:

Emoji男孩

人声音频:参见右侧视频

人物视频:

表情包Emoji

基于人脸图片和预设的人脸动态模板,生成人脸动态视频。该能力可用于表情包制作、视频素材生成等场景。使用时需依次调用下述模型。Emoji 图像检测Emoji 视频生成

模型名称

说明

单价

免费额度

emoji-detect-v1

检测输入图片是否符合要求

0.004元/张

200

有效期:百炼开通后180天内

emoji-v1

基于人物肖像图片和指定的表情包模板生成人物同款表情

0.08元/秒

500

有效期:百炼开通后180天内

输入:人物肖像图片

输出:人物肖像动态视频

image.png

“开心”表情的模板序列:("input.driven_id": "mengwa_kaixin")

声动人像VideoRetalk

基于人物视频和人声音频,生成人物讲话口型与输入音频相匹配的视频。使用时需调用下述模型。API参考

模型名称

说明

单价

免费额度

videoretalk

生成人物讲话口型与输入音频相匹配的新视频

0.08元/秒

1800

有效期:百炼开通后180天内

视频风格重绘

支持根据用户输入的文字内容,生成符合语义描述的不同风格的视频,或者根据用户输入的视频,进行视频风格重绘。API参考

模型名称

说明

单价

免费额度

video-style-transform

将输入视频转换为日式漫画、美式漫画等风格

720P

0.5元/s

600

有效期:百炼开通后180天内

540P

0.2元/s

输入视频

输出视频(日式漫画)