阿里云百炼提供多样化的视频模型选择,涵盖文生视频、图生视频(通用/舞蹈/唱演/播报等)、视频编辑(通用/视频风格重绘/视频口型替换)等应用场景。
模型总览
类别 | 说明 |
文生视频 |
|
图生视频 |
|
视频编辑 |
|
支持的模型
文生视频
通义万相-文生视频模型通过一句话即可生成视频,视频呈现丰富的艺术风格及影视级画质。API参考 |在线体验
模型名称 | 说明 | 单价 | 免费额度(注) 有效期:阿里云百炼开通后180天内 |
wan2.2-t2v-plus | 万相2.2专业版。在画面细节表现、运动稳定性方面均有显著提升。 | 480P:0.14元/秒 1080P:0.70元/秒 | 50秒 |
wanx2.1-t2v-turbo | 万相2.1极速版。文生视频,性价比高。 | 0.24元/秒 | 200秒 |
wanx2.1-t2v-plus | 万相2.1专业版。生成细节丰富,画面更具质感。 | 0.70元/秒 | 200秒 |
输入示例 | 输出视频 |
输入提示词:一只小猫在月光下奔跑 |
图生视频-基于首帧
通义万相-图生视频模型将输入图片作为视频首帧,再根据提示词生成视频。视频呈现丰富的艺术风格及影视级画质。API参考 |在线体验
模型名称 | 说明 | 单价 | 免费额度(注) 有效期:阿里云百炼开通后180天内 |
wan2.2-i2v-plus | 万相2.2专业版。在画面细节表现、运动稳定性方面均有显著提升。 | 480P:0.14元/秒 1080P:0.70元/秒 | 50秒 |
wanx2.1-i2v-turbo | 万相2.1极速版。图生视频,性价比高。 | 0.24元/秒 | 200秒 |
wanx2.1-i2v-plus | 万相2.1专业版。生成细节丰富,画面更具质感。 | 0.70元/秒 | 200秒 |
输入示例 | 输出视频 |
输入提示词:一只猫在草地上奔跑 输入图片: | 输出视频:将图片作为视频的第一帧,再根据提示词生成视频。 模型:wanx2.1-i2v-turbo。 |
图生视频-基于首尾帧
通义万相-首尾帧生视频模型,只需要提供首帧和尾帧图片,便能根据提示词生成一段丝滑流畅的动态视频。API参考 | 在线体验
模型名称 | 单价 | 免费额度 |
wanx2.1-kf2v-plus | 0.70元/秒 | 200秒 有效期:百炼开通后180天内 |
输入示例 | 输出视频 | ||
首帧图片 | 尾帧图片 | 提示词 | |
写实风格,一只黑色小猫好奇地看向天空,镜头从平视逐渐上升,最后俯拍小猫好奇的眼神。 |
通用视频编辑
通义万相-视频编辑统一模型支持多模态输入,包括文本、图像和视频,能够执行视频生成与通用编辑任务。API参考
模型名称 | 单价 | 免费额度 |
wanx2.1-vace-plus | 0.70元/秒 | 50秒 有效期:百炼开通后180天内 |
视频编辑统一模型支持以下功能:
模型功能 | 输入参考图 | 输入提示词 | 输出视频 |
多图参考 | 参考图1(参考主体) 参考图2(参考背景) | 视频中,一位女孩自晨雾缭绕的古老森林深处款款走出,她步伐轻盈,镜头捕捉她每一个灵动瞬间。当女孩站定,环顾四周葱郁林木时,她脸上绽放出惊喜与喜悦交织的笑容。这一幕,定格在了光影交错的瞬间,记录下女孩与大自然的美妙邂逅。 | 输出视频 |
视频重绘 | 视频展示了一辆黑色的蒸汽朋克风格汽车,绅士驾驶着,车辆装饰着齿轮和铜管。背景是蒸汽驱动的糖果工厂和复古元素,画面复古与趣味 | ||
局部编辑 | 输入视频 输入掩码图像(白色区域表示编辑区域) | 视频展示了一家巴黎风情的法式咖啡馆,一只穿着西装的狮子优雅地品着咖啡。它一手端着咖啡杯,轻轻啜饮,神情惬意。咖啡馆装饰雅致,柔和的色调与温暖灯光映照着狮子所在的区域。 | 根据提示词修改编辑区域的内容 |
视频延展 | 输入首片段视频(1秒) | 一只戴着墨镜的狗在街道上滑滑板,3D卡通。 | 输出延长后的视频(5秒) |
视频画面扩展 | 一位优雅的女士正在激情演奏小提琴,她身后是一支完整的交响乐团。 |
舞动人像AnimateAnyone
基于人物图片和人物动作模板,生成人物动作视频。直接使用时需依次调用下述三个模型。AnimateAnyone图像检测 API详情 | AnimateAnyone 动作模板生成| AnimateAnyone视频生成API详情
模型名称 | 说明 | 单价 | 免费额度 |
animate-anyone-detect-gen2 | 检测输入的图片是否符合要求 | 0.004元/张 | 200张 有效期:百炼开通后180天内 |
animate-anyone-template-gen2 | 从人物运动视频中提取人物动作并生成动作模板 | 0.08元/秒 | 各1800秒 有效期:百炼开通后180天内 |
animate-anyone-gen2 | 基于人物图片和动作模板生成人物动作视频 |
下面两个模型支持独立部署。模型部署后,模型调用参考这两个API详情。AnimateAnyone图像检测 API详情 | AnimateAnyone视频生成API详情
模型名称 | 说明 | 单价 | 免费额度 |
animate-anyone-detect | 检测输入图片是否符合要求 | 当前仅支持部署后调用,仅收取部署费用。部署单价:
| 无 |
animate-anyone | 基于人物图片和动作模板生成人物动作视频 |
输入:人物图片 | 输入:动作视频 | 输出(按图片背景生成) | 输出(按视频背景生成) |
以上示例,由集成了“舞动人像AnimateAnyone”的通义APP生成。
舞动人像AnimateAnyone模型的生成内容为视频画面,不包含音频。
悦动人像EMO
基于人物肖像图片和人声音频文件,生成人物肖像动态视频。使用时需依次调用下述模型。EMO 图像检测 | EMO 视频生成
emo-detect-v1与emo-detect、emo-v1与emo在调用方式及计费方式中有区别,模型效果完全相同。
模型名称 | 说明 | 单价 | 免费额度 |
emo-detect-v1 | 检测输入的图片是否符合要求,不需要部署,可直接调用 | 0.004元/张 | 200张 有效期:百炼开通后180天内 |
emo-v1 | 生成人物肖像动态视频,不需要部署,可直接调用 |
| 1800秒 有效期:百炼开通后180天内 |
emo-detect | 检测输入的图片是否符合要求,仅支持部署后调用 | 当前仅支持部署后调用,仅收取部署费用。 部署单价:20元/算力单元/小时 | 无 |
emo | 生成人物肖像动态视频,仅支持部署后调用 |
输入物:人物肖像图片+人声音频文件 | 输出物:人物肖像动态视频 |
人物肖像: 人声音频:参见右侧视频 | 人物视频: 使用动作风格强度:活泼("style_level": "active") |
灵动人像LivePortrait
基于人物肖像图片和人声音频文件,快速、轻量地生成人物肖像动态视频。与悦动人像EMO模型相比,生成速度快、价格低,但是生成效果不如悦动人像EMO模型。使用时需依次调用下述两个模型。LivePortrait 图像检测 | LivePortrait 视频生成
模型名称 | 说明 | 单价 | 免费额度 |
liveportrait-detect | 检测输入的图片是否符合要求 | 0.004元/张 | 200张 有效期:百炼开通后180天内 |
liveportrait | 生成人物肖像动态视频 | 0.02元/秒 | 1800秒 有效期:百炼开通后180天内 |
输入物:人物肖像图片+人声音频文件 | 输出物:人物肖像动态视频 |
人物肖像: 人声音频:参见右侧视频 | 人物视频: |
表情包Emoji
基于人脸图片和预设的人脸动态模板,生成人脸动态视频。该能力可用于表情包制作、视频素材生成等场景。使用时需依次调用下述模型。Emoji 图像检测 | Emoji 视频生成
模型名称 | 说明 | 单价 | 免费额度 |
emoji-detect-v1 | 检测输入图片是否符合要求 | 0.004元/张 | 200张 有效期:百炼开通后180天内 |
emoji-v1 | 基于人物肖像图片和指定的表情包模板生成人物同款表情 | 0.08元/秒 | 500秒 有效期:百炼开通后180天内 |
输入:人物肖像图片 | 输出:人物肖像动态视频 |
“开心”表情的模板序列:("input.driven_id": "mengwa_kaixin") |
声动人像VideoRetalk
基于人物视频和人声音频,生成人物讲话口型与输入音频相匹配的视频。使用时需调用下述模型。API参考
模型名称 | 说明 | 单价 | 免费额度 |
videoretalk | 生成人物讲话口型与输入音频相匹配的新视频 | 0.08元/秒 | 1800秒 有效期:百炼开通后180天内 |
视频风格重绘
支持根据用户输入的文字内容,生成符合语义描述的不同风格的视频,或者根据用户输入的视频,进行视频风格重绘。API参考
模型名称 | 说明 | 单价 | 免费额度 | |
video-style-transform | 将输入视频转换为日式漫画、美式漫画等风格 | 720P | 0.5元/s | 600秒 有效期:百炼开通后180天内 |
540P | 0.2元/s |
输入视频 | 输出视频(日式漫画) |