阿里云百炼提供多样化的视频模型选择,涵盖文生视频、图生视频(通用/舞蹈/唱演/播报等)、视频编辑(通用/视频风格重绘/视频口型替换)等应用场景。
模型总览
类别 | 说明 |
文生视频 |
|
图生视频 |
|
视频编辑 |
|
支持的模型
文生视频
通义万相-文生视频模型通过一句话即可生成视频,视频呈现丰富的艺术风格及影视级画质。API参考 |在线体验
计费规则:按成功生成的视频秒数计费,失败不计费也不占用免费额度。
中国大陆(北京)
模型名称 | 说明 | 单价 | 免费额度(注) 有效期:阿里云百炼开通后90天内 |
wan2.5-t2v-preview | 万相2.5 preview。支持自动配音和传入自定义音频文件。 | 480P:0.3元/秒 720P:0.6元/秒 1080P:1元/秒 | 50秒 |
wan2.2-t2v-flash | 万相2.2极速版。指令理解更准,运动稳定流畅生成,生成速度更快。 | 480P:0.10元/秒 720P:0.20元/秒 | 50秒 |
wan2.2-t2v-plus | 万相2.2专业版。指令理解更准,运动稳定流畅生成,生成细节更丰富。 | 480P:0.14元/秒 1080P:0.70元/秒 | 50秒 |
wanx2.1-t2v-turbo | 万相2.1极速版。性价比高。 | 0.24元/秒 | 200秒 |
wanx2.1-t2v-plus | 万相2.1专业版。画面更具质感。 | 0.70元/秒 | 200秒 |
国际(新加坡)
模型名称 | 说明 | 单价 | 免费额度(注) |
wan2.5-t2v-preview | 万相2.5 preview。支持自动配音和传入自定义音频文件。 | 480P:0.366961元/秒 720P:0.733923元/秒 1080P:1.100885元/秒 | 无免费额度 |
wan2.2-t2v-plus | 万相2.2专业版。在画面细节表现、运动稳定性方面均有显著提升。 | 480P:0.146785元/秒 1080P:0.733924元/秒 | 无免费额度 |
wan2.1-t2v-turbo | 万相2.1极速版。生成速度快,表现均衡。 | 0.264213元/秒 | 无免费额度 |
wan2.1-t2v-plus | 万相2.1专业版。生成细节丰富,画面更具质感。 | 0.733924元/秒 | 无免费额度 |
输入示例 | 输出视频(wan2.5) |
输入提示词:一幅史诗级可爱的场景。一只小巧可爱的卡通小猫将军,身穿细节精致的金色盔甲,头戴一个稍大的头盔,勇敢地站在悬崖上。他骑着一匹虽小但英勇的战马,说:“青海长云暗雪山,孤城遥望玉门关。黄沙百战穿金甲,不破楼兰终不还”。悬崖下方,一支由老鼠组成的、数量庞大、无穷无尽的军队正带着临时制作的武器向前冲锋。这是一个戏剧性的、大规模的战斗场景,灵感来自中国古代的战争史诗。远处的雪山上空,天空乌云密布。整体氛围是“可爱”与“霸气”的搞笑和史诗般的融合。 输入音频: |
图生视频-基于首帧
通义万相-图生视频模型将输入图片作为视频首帧,再根据提示词生成视频。视频呈现丰富的艺术风格及影视级画质。API参考 |在线体验
计费规则:按成功生成的视频秒数计费,失败不计费也不占用免费额度。
中国大陆(北京)
模型名称 | 说明 | 单价 | 免费额度(注) 有效期:阿里云百炼开通后90天内 |
wan2.5-i2v-preview | 万相2.5 preview。支持自动配音和传入自定义音频文件。 | 480P:0.3元/秒 720P:0.6元/秒 1080P:1元/秒 | 50秒 |
wan2.2-i2v-flash | 万相2.2专业版。 极致生成速度,指令理解与运镜控制更准,画面元素保持一致,稳定性与成功率全面提升。 | 480P:0.10元/秒 720P:0.20元/秒 1080P:0.48元/秒 | 50秒 |
wan2.2-i2v-plus | 万相2.2专业版。 指令理解更准,运镜可控,画面元素保持一致,稳定性与成功率全面提升,生成内容更丰富。 | 480P:0.14元/秒 1080P:0.70元/秒 | 50秒 |
wanx2.1-i2v-turbo | 万相2.1极速版。性价比高。 | 0.24元/秒 | 200秒 |
wanx2.1-i2v-plus | 万相2.1专业版。画面更具质感。 | 0.70元/秒 | 200秒 |
国际(新加坡)
模型名称 | 说明 | 单价 | 免费额度(注) |
wan2.5-i2v-preview | 万相2.5 preview。支持自动配音和传入自定义音频文件。 | 480P:0.366961元/秒 720P:0.733923元/秒 1080P:1.100885元/秒 | 无免费额度 |
wan2.2-i2v-flash | 万相2.2极速版。极致生成速度,在画面细节表现、运动稳定性方面均有显著提升。 | 480P:0.110089元/秒 720P:0.264213元/秒 | 无免费额度 |
wan2.2-i2v-plus | 万相2.2专业版。在画面细节表现、运动稳定性方面均有显著提升。 | 480P:0.146785元/秒 1080P:0.733924元/秒 | 无免费额度 |
wan2.1-i2v-turbo | 万相2.1极速版。生成速度快,表现均衡。 | 0.264213元/秒 | 无免费额度 |
wan2.1-i2v-plus | 万相2.1专业版。生成细节丰富,画面更具质感。 | 0.733924元/秒 | 无免费额度 |
输入首帧图像和音频 | 输出视频(wan2.5) |
输入音频: | |
输入提示词:一幅都市奇幻艺术的场景。一个充满动感的涂鸦艺术角色。一个由喷漆所画成的少年,正从一面混凝土墙上活过来。他一边用极快的语速演唱一首英文rap,一边摆着一个经典的、充满活力的说唱歌手姿势。场景设定在夜晚一个充满都市感的铁路桥下。灯光来自一盏孤零零的街灯,营造出电影般的氛围,充满高能量和惊人的细节。视频的音频部分完全由少年的rap构成,没有其他对话或杂音。 |
图生视频-基于首尾帧
通义万相-首尾帧生视频模型,只需要提供首帧和尾帧图片,便能根据提示词生成一段丝滑流畅的动态视频。API参考 | 在线体验
计费规则:按成功生成的视频秒数计费,失败不计费也不占用免费额度。
中国大陆(北京)
模型名称 | 说明 | 单价 | 免费额度(注) 有效期:阿里云百炼开通后90天内 |
wan2.2-kf2v-flash | 万相2.2极速版 | 480P:0.10元/秒 720P:0.20元/秒 1080P:0.48元/秒 | 50秒 |
wanx2.1-kf2v-plus | 万相2.1专业版 | 720P:0.70元/秒 | 200秒 |
国际(新加坡)
模型名称 | 单价 | 免费额度(注) |
wan2.1-kf2v-plus | 0.733924元/秒 | 无免费额度 |
输入示例 | 输出视频 | ||
首帧图片 | 尾帧图片 | 提示词 | |
写实风格,一只黑色小猫好奇地看向天空,镜头从平视逐渐上升,最后俯拍小猫好奇的眼神。 |
通用视频编辑
通义万相-视频编辑统一模型支持多模态输入,包括文本、图像和视频,能够执行视频生成与通用编辑任务。API参考
计费规则:按成功生成的视频秒数计费,失败不计费也不占用免费额度。
中国大陆(北京)
模型名称 | 单价 | 免费额度 |
wanx2.1-vace-plus | 0.70元/秒 | 50秒 有效期:百炼开通后90天内 |
国际(新加坡)
模型名称 | 单价 | 免费额度(注) |
wan2.1-vace-plus | 0.733924元/秒 | 无免费额度 |
模型功能 | 输入参考图 | 输入提示词 | 输出视频 |
多图参考 | 参考图1(参考主体) 参考图2(参考背景) | 视频中,一位女孩自晨雾缭绕的古老森林深处款款走出,她步伐轻盈,镜头捕捉她每一个灵动瞬间。当女孩站定,环顾四周葱郁林木时,她脸上绽放出惊喜与喜悦交织的笑容。这一幕,定格在了光影交错的瞬间,记录下女孩与大自然的美妙邂逅。 | 输出视频 |
视频重绘 | 视频展示了一辆黑色的蒸汽朋克风格汽车,绅士驾驶着,车辆装饰着齿轮和铜管。背景是蒸汽驱动的糖果工厂和复古元素,画面复古与趣味 | ||
局部编辑 | 输入视频 输入掩码图像(白色区域表示编辑区域) | 视频展示了一家巴黎风情的法式咖啡馆,一只穿着西装的狮子优雅地品着咖啡。它一手端着咖啡杯,轻轻啜饮,神情惬意。咖啡馆装饰雅致,柔和的色调与温暖灯光映照着狮子所在的区域。 | 根据提示词修改编辑区域的内容 |
视频延展 | 输入首片段视频(1秒) | 一只戴着墨镜的狗在街道上滑板,3D卡通。 | 输出延长后的视频(5秒) |
视频画面扩展 | 一位优雅的女士正在激情演奏小提琴,她身后是一支完整的交响乐团。 |
通义万相-数字人
基于单张人物图片和音频,生成动作自然的说话、唱歌或表演视频。使用时需依次调用下述模型。wan2.2-s2v 图像检测 | wan2.2-s2v 视频生成
仅支持中国大陆(北京)地域。
模型名称 | 模型简介 | 计费单价 | 免费额度 |
wan2.2-s2v-detect | 检查输入图像是否满足要求(如清晰度、单人、正面)。 | 0.004元/张 | 免费额度:200张 有效期:阿里云百炼开通后90天内 |
wan2.2-s2v | 根据检测通过的图片和一段音频,生成人物动态视频。 | 480P:0.5元/秒 720P:0.9元/秒 | 免费额度:100秒 有效期:阿里云百炼开通后90天内 |
输入示例 | 输出视频 |
输入图片: 输入音频: |
通义万相-图生动作
提供标准和专业两种服务模式,基于人物图片和模板视频,将视频角色的动作、表情迁移到图片角色中,生成人物动作视频,赋予图片角色动态表现力。API参考
仅支持中国大陆(北京)地域。
模型名称 | 模型服务 | 服务简介 | 计费单价 | 免费额度(查看) |
wan2.2-animate-move | 图生动作-标准std | 生成速度快,满足基础动画演示等轻需求,性价比高。 | 0.4元/秒 | 两种服务共50秒 |
图生动作-专业pro | 动画流畅度高,动作表情过渡自然,效果更接近真实拍摄。 | 0.6元/秒 |
人物图片 | 模板视频 | 输出视频(图生动作-标准std) | 输出视频(图生动作-专业pro) |
通义万相-视频换人
提供标准和专业两种服务模式,基于人物图片和模板视频,将视频中的主角替换为图片中的角色,同时保留原视频的场景、光照和色调。API 参考
仅支持中国大陆(北京)地域。
模型名称 | 模型服务 | 服务简介 | 计费单价 | 免费额度(查看) |
wan2.2-animate-mix | 视频换人-标准std | 生成速度快,满足基础动画演示等轻需求,性价比高。 | 0.6元/秒 | 两种服务共50秒 |
视频换人-专业pro | 动画流畅度高,动作表情过渡自然,效果更接近真实拍摄。 | 0.9元/秒 |
人物图片 | 模板视频 | 输出视频(视频换人-标准std) | 输出视频(视频换人-专业pro) |
舞动人像AnimateAnyone
基于人物图片和人物动作模板,生成人物动作视频。直接使用时需依次调用下述三个模型。AnimateAnyone图像检测 API详情 | AnimateAnyone 动作模板生成| AnimateAnyone视频生成API详情
仅支持中国大陆(北京)地域。
模型名称 | 说明 | 单价 | 免费额度 |
animate-anyone-detect-gen2 | 检测输入的图片是否符合要求 | 0.004元/张 | 200张 有效期:百炼开通后90天内 |
animate-anyone-template-gen2 | 从人物运动视频中提取人物动作并生成动作模板 | 0.08元/秒 | 各1800秒 有效期:百炼开通后90天内 |
animate-anyone-gen2 | 基于人物图片和动作模板生成人物动作视频 |
下面两个模型支持独立部署。模型部署后,模型调用参考这两个API详情。AnimateAnyone图像检测 API详情 | AnimateAnyone视频生成API详情
模型名称 | 说明 | 单价 | 免费额度 |
animate-anyone-detect | 检测输入图片是否符合要求 | 当前仅支持部署后调用,仅收取部署费用。部署单价:
| 无 |
animate-anyone | 基于人物图片和动作模板生成人物动作视频 |
输入:人物图片 | 输入:动作视频 | 输出(按图片背景生成) | 输出(按视频背景生成) |
以上示例,由集成了“舞动人像AnimateAnyone”的通义APP生成。
舞动人像AnimateAnyone模型的生成内容为视频画面,不包含音频。
悦动人像EMO
基于人物肖像图片和人声音频文件,生成人物肖像动态视频。使用时需依次调用下述模型。EMO 图像检测 | EMO 视频生成
emo-detect-v1与emo-detect、emo-v1与emo在调用方式及计费方式中有区别,模型效果完全相同。
仅支持中国大陆(北京)地域。
模型名称 | 说明 | 单价 | 免费额度 |
emo-detect-v1 | 检测输入的图片是否符合要求,不需要部署,可直接调用 | 0.004元/张 | 200张 有效期:百炼开通后90天内 |
emo-v1 | 生成人物肖像动态视频,不需要部署,可直接调用 |
| 1800秒 有效期:百炼开通后90天内 |
emo-detect | 检测输入的图片是否符合要求,仅支持部署后调用 | 当前仅支持部署后调用,仅收取部署费用。 部署单价:20元/算力单元/小时 | 无 |
emo | 生成人物肖像动态视频,仅支持部署后调用 |
输入物:人物肖像图片+人声音频文件 | 输出物:人物肖像动态视频 |
人物肖像: 人声音频:参见右侧视频 | 人物视频: 使用动作风格强度:活泼("style_level": "active") |
灵动人像LivePortrait
基于人物肖像图片和人声音频文件,快速、轻量地生成人物肖像动态视频。与悦动人像EMO模型相比,生成速度快、价格低,但是生成效果不如悦动人像EMO模型。使用时需依次调用下述两个模型。LivePortrait 图像检测 | LivePortrait 视频生成
仅支持中国大陆(北京)地域。
模型名称 | 说明 | 单价 | 免费额度 |
liveportrait-detect | 检测输入的图片是否符合要求 | 0.004元/张 | 200张 有效期:百炼开通后90天内 |
liveportrait | 生成人物肖像动态视频 | 0.02元/秒 | 1800秒 有效期:百炼开通后90天内 |
输入物:人物肖像图片+人声音频文件 | 输出物:人物肖像动态视频 |
人物肖像: 人声音频:参见右侧视频 | 人物视频: |
表情包Emoji
基于人脸图片和预设的人脸动态模板,生成人脸动态视频。该能力可用于表情包制作、视频素材生成等场景。使用时需依次调用下述模型。Emoji 图像检测 | Emoji 视频生成
仅支持中国大陆(北京)地域。
模型名称 | 说明 | 单价 | 免费额度 |
emoji-detect-v1 | 检测输入图片是否符合要求 | 0.004元/张 | 200张 有效期:百炼开通后90天内 |
emoji-v1 | 基于人物肖像图片和指定的表情包模板生成人物同款表情 | 0.08元/秒 | 500秒 有效期:百炼开通后90天内 |
输入:人物肖像图片 | 输出:人物肖像动态视频 |
“开心”表情的模板序列:("input.driven_id": "mengwa_kaixin") |
声动人像VideoRetalk
基于人物视频和人声音频,生成人物讲话口型与输入音频相匹配的视频。使用时需调用下述模型。API参考
仅支持中国大陆(北京)地域。
模型名称 | 说明 | 单价 | 免费额度 |
videoretalk | 生成人物讲话口型与输入音频相匹配的新视频 | 0.08元/秒 | 1800秒 有效期:百炼开通后90天内 |
输入示例 | 输出示例 |
人声音频: |
视频风格重绘
支持根据用户输入的文字内容,生成符合语义描述的不同风格的视频,或者根据用户输入的视频,进行视频风格重绘。API参考
仅支持中国大陆(北京)地域。
模型名称 | 说明 | 单价 | 免费额度 | |
video-style-transform | 将输入视频转换为日式漫画、美式漫画等风格 | 720P | 0.5元/秒 | 600秒 有效期:百炼开通后90天内 |
540P | 0.2元/秒 |
输入视频 | 输出视频(日式漫画) |