视频生成-大模型服务平台百炼(Model Studio)-阿里云帮助中心

通用视频生成
- 需要将文字转化为视频时，使用万相-文生视频。
- 有一张图，想生成电影感镜头，使用万相-图生视频-基于首帧。
- 有开头和结尾两张图，要控制画面变化过程，使用万相-图生视频-基于首尾帧。
- 有多个视频，想复刻角色的形象和声音表演新剧本，使用万相-参考生视频。
- 还提供第三方模型，如爱诗系列模型。
数字人对口型：让静态照片说话、唱歌或播报。背景保持不变，仅主体面部、头部和肢体运动。
- 首选万相-数字人，效果自然，含表情和肢体动作（替代悦动人像EMO）。
- 当需要长视频（>20秒）且头部动作简单（如新闻播报）时，考虑使用灵动人像LivePortrait。
视频动作迁移：保留照片背景，让照片的人参考指定视频动起来，使用万相-图生动作。
视频换人：保留视频背景，把视频的人换成指定图像的人，使用万相-视频换人。
跳舞换人：把跳舞视频的人换成图像的人。推荐选择万相-图生动作和万相-图生动作（效果佳）；若预算有限，可选舞动人像AnimateAnyone（性价比高）。
视频口型替换：给已有视频改配音口型，使用声动人像VideoRetalk。
表情包制作：制作固定风格模板的表情包，使用表情包Emoji。
视频重绘：固定风格模板使用视频风格重绘，通过提示词自由描述风格使用万相-通用视频编辑。
视频编辑：以下需求均选择万相-通用视频编辑。
- 视频局部编辑：替换视频中的主体或衣服、删除路人等。
- 视频延展：把视频延长，如1秒视频延长为5秒。
- 视频画面扩展：横屏变竖屏、补全边界。
- 多图参考生成：融合背景图像和主体图像生成视频。

视频生成模型

万相-文生视频

根据文本提示词生成视频。支持输入文本+音频，输出电影级多镜头视频。

API参考｜模型价格｜Prompt指南｜在线体验：北京、新加坡、弗吉尼亚

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	能力支持	输入模态	输出视频规格
wan2.6-t2v `推荐`	有声视频多镜头叙事、声画同步	文本、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.5-t2v-preview `推荐`	有声视频声画同步	文本、音频	分辨率档位：480P、720P、1080P 视频时长：5s、10s 固定规格：30fps、MP4 (H.264编码)
wan2.2-t2v-plus	无声视频较2.1模型稳定性与成功率全面提升	文本	分辨率档位：480P、1080P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wanx2.1-t2v-turbo	无声视频	文本	分辨率档位：480P、720P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wanx2.1-t2v-plus	无声视频	文本	分辨率档位：720P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)

全球

在全球部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源在全球范围内动态调度。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-t2v 推荐

有声视频

多镜头叙事、声画同步

文本、音频

分辨率档位：720P、1080P

视频时长：5s、10s 、15s

固定规格：30fps、MP4 (H.264编码)

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称	能力支持	输入模态	输出视频规格
wan2.6-t2v `推荐`	有声视频多镜头叙事、声画同步	文本、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.5-t2v-preview `推荐`	有声视频声画同步	文本、音频	分辨率档位：480P、720P、1080P 视频时长：5s、10s 固定规格：30fps、MP4 (H.264编码)
wan2.2-t2v-plus	无声视频较2.1模型稳定性与成功率全面提升	文本	分辨率档位：480P、1080P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wan2.1-t2v-turbo	无声视频	文本	分辨率档位：480P、720P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wan2.1-t2v-plus	无声视频	文本	分辨率档位：720P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)

美国

在美国部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源仅限于美国境内。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-t2v-us 推荐

有声视频

多镜头叙事、声画同步

文本、音频

分辨率档位：720P、1080P

视频时长：5s、10s 、15s

固定规格：30fps、MP4 (H.264编码)

输入提示词

输出视频（wan2.6，多镜头视频）

一幅史诗级可爱的场景。一只小巧可爱的卡通小猫将军，身穿细节精致的金色盔甲，头戴一个稍大的头盔，勇敢地站在悬崖上。他骑着一匹虽小但英勇的战马，说：“青海长云暗雪山，孤城遥望玉门关。黄沙百战穿金甲，不破楼兰终不还”。悬崖下方，一支由老鼠组成的、数量庞大、无穷无尽的军队正带着临时制作的武器向前冲锋。这是一个戏剧性的、大规模的战斗场景，灵感来自中国古代的战争史诗。远处的雪山上空，天空乌云密布。整体氛围是“可爱”与“霸气”的搞笑和史诗般的融合。

万相-图生视频-基于首帧

根据给定的首帧图像生成视频。支持输入文本+首帧图像+音频，输出电影级多镜头视频。

API参考｜模型价格｜Prompt指南｜在线体验：北京、新加坡、弗吉尼亚

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	能力支持	输入模态	输出视频规格
wan2.6-i2v-flash `推荐`	有声视频、无声视频多镜头叙事、声画同步	文本、图像、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.6-i2v `推荐`	有声视频多镜头叙事、声画同步	文本、图像、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.5-i2v-preview	有声视频声画同步	文本、图像、音频	分辨率档位：480P、720P、1080P 视频时长：5s、10s 固定规格：30fps、MP4 (H.264编码)
wan2.2-i2v-flash	无声视频较2.1模型速度提升50%	文本、图像	分辨率档位：480P、720P、1080P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wan2.2-i2v-plus	无声视频较2.1模型稳定性与成功率全面提升	文本、图像	分辨率档位：480P、1080P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wanx2.1-i2v-plus	无声视频	文本、图像	分辨率档位：720P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wanx2.1-i2v-turbo	无声视频	文本、图像	分辨率档位：480P、720P 视频时长：3s、4s、5s 固定规格：30fps、MP4 (H.264编码)

全球

在全球部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源在全球范围内动态调度。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-i2v 推荐

有声视频

多镜头叙事、声画同步

文本、图像、音频

分辨率档位：720P、1080P

视频时长：5s、10s 、15s

固定规格：30fps、MP4 (H.264编码)

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称	能力支持	输入模态	输出视频规格
wan2.6-i2v-flash `推荐`	有声视频、无声视频多镜头叙事、声画同步	文本、图像、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.6-i2v `推荐`	有声视频多镜头叙事、声画同步	文本、图像、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.5-i2v-preview	有声视频声画同步	文本、图像、音频	分辨率档位：480P、720P、1080P 视频时长：5s、10s 固定规格：30fps、MP4 (H.264编码)
wan2.2-i2v-flash	无声视频较2.1模型速度提升50%	文本、图像	分辨率档位：480P、720P、1080P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wan2.2-i2v-plus	无声视频较2.1模型稳定性与成功率全面提升	文本、图像	分辨率档位：480P、1080P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wan2.1-i2v-plus	无声视频	文本、图像	分辨率档位：720P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wan2.1-i2v-turbo	无声视频	文本、图像	分辨率档位：480P、720P 视频时长：3s、4s、5s 固定规格：30fps、MP4 (H.264编码)

美国

在美国部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源仅限于美国境内。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-i2v-us 推荐

有声视频

多镜头叙事、声画同步

文本、图像、音频

分辨率档位：720P、1080P

视频时长：5s、10s 、15s

固定规格：30fps、MP4 (H.264编码)

输入提示词

输入首帧图像和音频

输出视频（wan2.6，多镜头视频）

一幅都市奇幻艺术的场景。一个充满动感的涂鸦艺术角色。一个由喷漆所画成的少年，正从一面混凝土墙上活过来。他一边用极快的语速演唱一首英文rap，一边摆着一个经典的、充满活力的说唱歌手姿势。场景设定在夜晚一个充满都市感的铁路桥下。灯光来自一盏孤零零的街灯，营造出电影般的氛围，充满高能量和惊人的细节。视频的音频部分完全由他的rap构成，没有其他对话或杂音。

rap-转换自-png

输入音频：

万相-图生视频-基于首尾帧

根据给定的首帧图像和尾帧图像，生成过渡自然的视频。支持输入文本+首帧图像+尾帧图像+音频，输出电影级多镜头视频。

API参考｜模型价格｜Prompt指南

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-kf2v-flash 推荐

无声视频

较2.1模型稳定性与成功率全面提升

文本、图像

分辨率档位：480P、720P、1080P

视频时长：5s

固定规格：30fps、MP4（H.264编码）

wanx2.1-kf2v-plus

无声视频

文本、图像

分辨率档位：720P

视频时长：5s

固定规格：30fps、MP4（H.264编码）

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称

能力支持

输入模态

输出视频规格

wan2.1-kf2v-plus

无声视频

文本、图像

分辨率档位：720P

视频时长：5s

固定规格：30fps、MP4（H.264编码）

输入首帧图像	输入尾帧图像	输入提示词	输出视频
		写实风格，一只黑色小猫好奇地看向天空，镜头从平视逐渐上升，最后俯拍小猫好奇的眼神。

万相-参考生视频

复刻视频中的角色的形象和声音表演新剧本。输入视频+文本提示词，输出视频在保持角色一致性的同时，生成多镜头、声画同步的视频。

API参考｜模型价格｜Prompt指南

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-r2v-flash 推荐

有声视频、无声视频

单角色/多角色生视频

多镜头叙事、声画同步

生成速度更快，性价比高

文本、图像、视频

分辨率档位：720P、1080P

视频时长：[2s, 10s]（整数）

固定规格：30fps、MP4（H.264编码）

wan2.6-r2v

有声视频

单角色/多角色生视频

多镜头叙事、声画同步

文本、图像、视频

分辨率档位：720P、1080P

视频时长：[2s, 10s]（整数）

固定规格：30fps、MP4（H.264编码）

全球

在全球部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源在全球范围内动态调度。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-r2v 推荐

有声视频

单角色/多角色生视频

多镜头叙事、声画同步

文本、视频

分辨率档位：720P、1080P

视频时长：5s、10s

固定规格：30fps、MP4（H.264编码）

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-r2v-flash 推荐

有声视频、无声视频

单角色/多角色生视频

多镜头叙事、声画同步

生成速度更快，性价比高

文本、图像、视频

分辨率档位：720P、1080P

视频时长：[2s, 10s]（整数）

固定规格：30fps、MP4（H.264编码）

wan2.6-r2v

有声视频

单角色/多角色生视频

多镜头叙事、声画同步

文本、图像、视频

分辨率档位：720P、1080P

视频时长：[2s, 10s]（整数）

固定规格：30fps、MP4（H.264编码）

输入参考视频1（角色为小女孩）	输入参考视频2（角色为闹钟）	输入提示词	输出视频（多角色对话）
		character1对character2说: “I’ll rely on you tomorrow morning!” character2 回答: “You can count on me!”

万相-通用视频编辑

视频编辑通用模型。支持输入文本、图像、视频多模态数据，可执行多种视频生成与编辑任务。

API参考｜模型价格

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wanx2.1-vace-plus

无声视频

多图参考、视频重绘、局部编辑、视频延展、视频画面扩展

文本、图像、视频

分辨率档位：720P

视频时长：不超过5s

固定规格：30fps、MP4（H.264编码）

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称

能力支持

输入模态

输出视频规格

wan2.1-vace-plus

无声视频

多图参考、视频重绘、局部编辑、视频延展、视频画面扩展

文本、图像、视频

分辨率档位：720P

视频时长：不超过5s

固定规格：30fps、MP4（H.264编码）

功能一：多图参考

输入参考图1（参考主体）	输入参考图2（参考背景）	输入提示词	输出视频
		视频中，一位女孩自晨雾缭绕的古老森林深处款款走出，她步伐轻盈，镜头捕捉她每一个灵动瞬间。当她站定，环顾四周葱郁林木时，她脸上绽放出惊喜与喜悦交织的笑容。这一幕，定格在了光影交错的瞬间，记录下她与大自然的美妙邂逅。

功能二：视频重绘

输入视频	输入提示词	输出视频
	视频展示了一辆黑色的蒸汽朋克风格汽车，绅士驾驶着，车辆装饰着齿轮和铜管。背景是蒸汽驱动的糖果工厂和复古元素，画面复古与趣味

功能三：视频局部编辑

输入视频	输入掩码图像（白色区域表示编辑区域）	输入提示词	输出视频
		视频展示了一家巴黎风情的法式咖啡馆，一只穿着西装的狮子优雅地品着咖啡。它一手端着咖啡杯，轻轻啜饮，神情惬意。咖啡馆装饰雅致，柔和的色调与温暖灯光映照着狮子所在的区域。

功能四：视频延展
输入首片段视频（1秒）
输入提示词
输出视频（延长后的视频为5秒）
一只戴着墨镜的狗在街道上滑滑板，3D卡通。
功能五：视频画面扩展
输入视频
输入提示词
输出视频
一位优雅的女士正在激情演奏小提琴，她身后是一支完整的交响乐团。

万相-数字人

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

图生唱演和播报视频：让图像中人或卡通形象说话、唱歌、播报或表演。输入图像 + 音频，输出视频自动为人物或卡通形象匹配口型、面部表情、头部及身体动作。

图像检测API参考｜视频生成API参考｜模型价格

模型名称

能力支持

输入模态

输出说明

wan2.2-s2v-detect

图像检测

图像

输出检测状态：通过或未通过

wan2.2-s2v

视频生成

有声视频

图像、音频

分辨率档位：480P、720P

视频时长：不超过20s（跟随音频时长）

固定规格：

480P：16fps、MP4（H.264编码）
720P：30fps、MP4（H.264编码）

输入示例（人物图像+音频）

输出视频（对口型）

输入音频：

万相-图生动作

让图像的人参考视频动起来。输入图像 + 视频，输出的视频保持图像背景不变，参考视频做动作。

API参考｜模型价格

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-animate-move

有声视频、无声视频（跟随输入视频而定）

标准模式wan-std：生成速度快，性价比高
专业模式wan-pro：效果更接近真实拍摄

图像、视频

分辨率档位：720P

视频时长：2s＜时长＜30s

固定规格：

标准模式wan-std：15fps、MP4（H.264编码）
专业模式wan-pro：25fps、MP4（H.264编码）

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-animate-move

有声视频、无声视频（跟随输入视频而定）

标准模式wan-std：生成速度快，性价比高
专业模式wan-pro：效果更接近真实拍摄

图像、视频

分辨率档位：720P

视频时长：2s＜时长＜30s

固定规格：

标准模式wan-std：15fps、MP4（H.264编码）
专业模式wan-pro：25fps、MP4（H.264编码）

输入人物图像	输入参考视频	输出视频（标准模式`wan-std`）	输出视频（专业模式`wan-pro`）

万相-视频换人

把视频中的人换成图像中的人。输入视频 + 替换图像，输出视频保留原视频背景，实现视频换脸、视频换角色等功能。

API参考｜模型价格

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-animate-mix

有声视频、无声视频（跟随输入视频而定）

标准模式wan-std：生成速度快，性价比高
专业模式wan-pro：效果更接近真实拍摄

图像、视频

分辨率档位：720P

视频时长：2s＜时长＜30s

固定规格：

标准模式wan-std：15fps、MP4（H.264编码）
专业模式wan-pro：25fps、MP4（H.264编码）

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-animate-mix

有声视频、无声视频（跟随输入视频而定）

标准模式wan-std：生成速度快，性价比高
专业模式wan-pro：效果更接近真实拍摄

图像、视频

分辨率档位：720P

视频时长：2s＜时长＜30s

固定规格：

标准模式wan-std：15fps、MP4（H.264编码）
专业模式wan-pro：25fps、MP4（H.264编码）

输入视频	输入待替换的人物图像	输出视频（标准模式`wan-std`）	输出视频（专业模式`wan-pro`）

舞动人像AnimateAnyone

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。
推荐使用万相-图生动作和万相-视频换人替换舞动人像AnimateAnyone。前两者效果更佳，舞动人像 AnimateAnyone成本较低。

专为跳舞设计，把视频中跳舞的人换成图像中的人。输入图像+视频，输出视频支持两种方式：1.保留图像背景不变；2.保留视频背景不变。

图像检测API参考 | 动作模板生成API参考 | 视频生成API参考｜模型价格

模型名称	能力支持	输入模态	输出说明
animate-anyone-detect-gen2	图像检测	图像	输出检测状态：通过或未通过
animate-anyone-template-gen2	舞蹈视频模板生成从跳舞视频中提取动作模板	视频	输出舞蹈动作模板ID
animate-anyone-gen2	视频生成无声视频	图像、视频、舞蹈动作模板ID	视频分辨率档位：720P 视频时长：2s≤时长≤60s 固定规格：15fps、MP4（H.264编码）

输入人物图像	输入跳舞视频	输出视频（按图片背景生成）	输出视频（按视频背景生成）

悦动人像EMO

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。
推荐使用万相-数字人替换悦动人像EMO。前者效果更佳，悦动人像EMO成本较低。

图生唱演视频：让图像中人唱歌或表演。输入图像 + 音频，输出视频自动为人物匹配口型、面部表情以及头部动作。

图像检测API参考 | 视频生成API参考｜模型价格

模型名称

能力支持

输入模态

输出说明

emo-detect-v1

图像检测

图像

输出检测状态：通过或未通过

emo-v1

视频生成

有声视频

图像、音频

视频分辨率：

1:1画幅（宽高比）：固定为512×512
3:4画幅（宽高比）：固定为512×704

视频时长：不超过60s

固定规格：15fps、MP4（H.264编码）

输入示例（人物肖像图片+音频）

输出视频（唱歌对口型）

输入音频：

灵动人像LivePortrait

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。
推荐使用万相-数字人替换灵动人像LivePortrait。前者效果更佳，灵动人像LivePortrait成本较低。请注意，当需要长视频（>20秒），可选择灵动人像LivePortrait。

图生播报视频：让图像中人播报新闻、讲故事。输入图像 + 音频，输出视频自动为人物匹配口型、面部表情以及头部动作（轻微摆动）。

图像检测API参考 | 视频生成API参考｜模型价格

模型名称

能力支持

输入模态

输出说明

liveportrait-detect

图像检测

图像

输出检测状态：通过或未通过

liveportrait

视频生成

有声视频

图像、音频

视频分辨率：跟随输入图片，上限接近4K（4096x4096）

视频时长：1s＜时长＜180s

视频帧率：15fps≤帧率≤30fps

视频格式：MP4（H.264编码）

输入示例（人物肖像图片+音频）

输出视频（语音播报对口型）

输入音频：

表情包Emoji

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

根据固定表情包模板制作表情包。输入图像+指定表情包ID，输出表情包视频。

图像检测API参考 | 视频生成API参考 | 模型价格

模型名称

能力支持

输入模态

输出说明

emoji-detect-v1

图像检测

图像

输出检测状态：通过或未通过

emoji-v1

视频生成

无声视频

图像、表情包模板ID

视频分辨率：固定为512x512

视频时长：不超过5s（跟随模板时长）

固定规格：15fps、MP4（H.264编码）

输入人物肖像图片	输出视频（“嫌弃”表情包）

声动人像VideoRetalk

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

视频口型替换：给视频替换配音口型。输入视频+音频，输出人物口型与音频同步的视频。

API参考 | 模型价格

模型名称

能力支持

输入模态

输出视频规格

videoretalk

有声视频

视频、音频

视频分辨率：跟随输入视频，上限接近2K（2048x2048）

视频时长：2s＜时长＜120s

视频帧率：15fps≤帧率≤60fps

视频格式：MP4（H.264编码）

输入示例（人物播报视频+音频）	输出视频（口型替换）
输入音频：

视频风格重绘

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

根据固定风格模板进行视频重绘。输入视频+指定重绘风格ID，输出重绘后的视频。

API参考 | 模型价格

模型名称

能力支持

输入模态

输出视频规格

video-style-transform

有声视频、无声视频

跟随输入视频而定

视频、重绘风格ID

视频分辨率：跟随输入视频，上限接近4K（4096x4096）

视频时长：不超过30s

视频帧率：15fps≤帧率≤25fps

视频格式：MP4（H.264编码）

输入视频	输出视频（重绘风格选择“日式漫画”）

视频生成-第三方模型

爱诗-文生视频

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

根据文本提示词生成视频。

API参考｜模型价格｜在线体验：北京

模型名称

能力支持

输入模态

输出视频规格

pixverse/pixverse-v5.6-t2v

有声视频、无声视频

文本

分辨率档位：360P、540P、720P、1080P

视频时长：5s、8s、10s (1080P档位不支持10s)

固定规格：24fps、MP4 (H.264编码)

爱诗-图生视频-基于首帧

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

根据给定的首帧图像生成视频。

API参考｜模型价格｜在线体验：北京

模型名称

能力支持

输入模态

输出视频规格

pixverse/pixverse-v5.6-it2v

有声视频、无声视频

文本、图像

分辨率档位：360P、540P、720P、1080P

视频时长：5s、8s、10s (1080P档位不支持10s)

固定规格：24fps、MP4 (H.264编码)

爱诗-图生视频-基于首尾帧

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

根据给定的首帧图像和尾帧图像，生成过渡自然的视频。

API参考｜模型价格

模型名称

能力支持

输入模态

输出视频规格

pixverse/pixverse-v5.6-kf2v

有声视频、无声视频

文本、图像

分辨率档位：360P、540P、720P、1080P

视频时长：5s、8s、10s (1080P档位不支持10s)

固定规格：24fps、MP4 (H.264编码)

爱诗-参考生视频

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

参考多张图像生成视频。输入图像+文本提示词，输出视频保持角色一致性。

API参考｜模型价格

模型名称

能力支持

输入模态

输出视频规格

pixverse/pixverse-v5.6-r2v

有声视频、无声视频

文本、图像

分辨率档位：360P、540P、720P、1080P

视频时长：5s、8s、10s (1080P档位不支持10s)

固定规格：24fps、MP4 (H.264编码)

输入首片段视频（1秒）	输入提示词	输出视频（延长后的视频为5秒）
	一只戴着墨镜的狗在街道上滑滑板，3D卡通。