参考生视频

更新时间:
复制为 MD 格式

万相-参考生视频模型支持多模态输入(文本/图像/视频),可将人物或物体作为主角,根据提示词生成自然生动的表演视频。

  • 基础能力:设置整数级视频时长(2~10秒)、指定视频分辨率(720P/1080P)、添加水印。

  • 角色扮演:基于参考图像或视频还原角色形象;若参考素材为视频,还支持参考音色,支持单人表演或多角色互动。

  • 多镜头叙事:具备多镜头智能调度能力,支持自然对话与稳定互动,同时保持主体一致性。

快速入口:API参考Prompt指南

适用范围

各地域支持的模型有所差异,且资源相互独立。调用时,请务必确保模型、接入地址及 API Key 均属于同一地域,否则将导致调用失败。

支持的模型

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-r2v-flash 推荐

有声视频、无声视频

参考多角色生视频

多镜头叙事、声画同步

文本、图像、视频

分辨率档位:720P、1080P

视频时长:[2s, 10s](整数)

固定规格:30fps、MP4(H.264编码)

wan2.6-r2v

有声视频

参考多角色生视频

多镜头叙事、声画同步

文本、图像、视频

分辨率档位:720P、1080P

视频时长:[2s, 10s](整数)

固定规格:30fps、MP4(H.264编码)

全球

全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-r2v 推荐

有声视频

参考多角色生视频

多镜头叙事、声画同步

文本、视频

分辨率档位:720P、1080P

视频时长:5s、10s

固定规格:30fps、MP4(H.264编码)

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-r2v-flash 推荐

有声视频、无声视频

参考多角色生视频

多镜头叙事、声画同步

文本、图像、视频

分辨率档位:720P、1080P

视频时长:[2s, 10s](整数)

固定规格:30fps、MP4(H.264编码)

wan2.6-r2v

有声视频

参考多角色生视频

多镜头叙事、声画同步

文本、图像、视频

分辨率档位:720P、1080P

视频时长:[2s, 10s](整数)

固定规格:30fps、MP4(H.264编码)

说明

本文的示例代码适用于北京地域。如使用其他地域,请参见API参考

核心能力

多角色互动

支持模型:所有模型。

功能介绍:支持最多5个角色合拍,生成自然对话和互动,适用于访谈、对话、教学等场景。

参数设置:

  • reference_urls:最多传入 5URL。每个URL可以指向一张图像或一段视频。

    • 图像数量:0~5。参考图可以是人物、物体和背景。

    • 视频数量:0~3。推荐用于人物或物体参考,不建议使用背景或空镜视频。

    • 每个参考素材(视频或图像)仅包含单一角色。

  • shot_type:推荐设置为multi,用于多镜头切换,增强互动表现力;也支持设置为single,单镜头固定视角。

  • prompt:提示词通过“character1、character2”这类标识引用角色。角色顺序与 reference_urls 数组一一对应,即第 1 个 URL 为 character1,第 2 个为 character2,依此类推。

参考图像和视频

输入提示词:character2 坐在靠窗的椅子上,手持 character3,在 character4 旁演奏一首舒缓的美国乡村民谣。character1 对character2开口说道:“听起来不错”。

输入视频character1

参考人物

输入视频character2

参考人物

输入图像character3

参考物体

输入图像character4

参考背景

输出视频(多镜头,有声视频)

wan-r2v-object4

wan-r2v-backgroud5

参考视频

输入提示词:一段温馨有趣的宠物短视频。第1个镜头[0-2秒] character1对着镜头微笑挥手,背景是充满活力的城市街道。第2个镜头[2-4秒] 突然一只可爱的狗狗 character2从画面外跳入,扑向年轻人。第3个镜头[4-6秒] character1character2开心互动,狗狗character2摇尾巴,character1抚摸character2的头。第4个镜头[6-8秒] 镜头切换到狗狗character2的视角,展现它眼中的主人character1。第5个镜头[8-10秒] character1character2合影,营造温馨欢乐的氛围。

输入视频character1

参考人物

输入视频character2

参考物体

输出视频(多镜头,有声视频)

curl

步骤1:创建任务获取任务ID

curl --location 'https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
    -H 'X-DashScope-Async: enable' \
    -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
    -H 'Content-Type: application/json' \
    -d '{
    "model": "wan2.6-r2v-flash",
    "input": {
        "prompt": "Character2 坐在靠窗的椅子上,手持 character3,在 character4 旁演奏一首舒缓的美国乡村民谣。Character1 对Character2开口说道:“听起来不错”",
        "reference_urls": [
            "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20260129/hfugmr/wan-r2v-role1.mp4",
            "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20260129/qigswt/wan-r2v-role2.mp4",
            "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20260129/qpzxps/wan-r2v-object4.png",
            "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20260129/wfjikw/wan-r2v-backgroud5.png"
        ]
    },
    "parameters": {
        "size": "1280*720",
        "duration": 10,
        "audio": true,
        "shot_type": "multi",
        "watermark": true
    }
}'

步骤2:根据任务ID获取结果

{task_id}完整替换为上一步接口返回的task_id的值。

curl -X GET https://dashscope.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"

单角色表演

支持模型:所有模型。

功能介绍:基于参考视频和参考图像中的角色在不同场景中展现完整表演,适用于个人品牌、产品代言、教育培训等。

参数设置

  • reference_urls:传入1个视频或1张图像。

  • shot_type:推荐设置为multi,用于多镜头切换,增强互动表现力;也支持设置为single,单镜头固定视角。

  • prompt:使用“character1”引用参考素材中的角色。

输入提示词

输入视频character1

输出视频(多镜头,有声视频)

展示最新款智能手表的多功能性和时尚设计。第1个镜头[0-3秒] character1在办公室中抬起手腕查看手表,屏幕显示日程提醒。第2个镜头[3-5秒] 特写镜头,手表屏幕切换到健康监测界面,显示心率和步数数据。第3个镜头[5-8秒] character1在健身房运动,手表自动识别运动模式并开始记录。第4个镜头[8-10秒] 手表收到消息通知,character1轻触屏幕查看详情,操作流畅自然。

curl

步骤1:创建任务获取任务ID

curl --location 'https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
    -H 'X-DashScope-Async: enable' \
    -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
    -H 'Content-Type: application/json' \
    -d '{
    "model": "wan2.6-r2v-flash",
    "input": {
        "prompt": "展示最新款智能手表的多功能性和时尚设计。第1个镜头[0-3秒] character1在办公室中抬起手腕查看手表,屏幕显示日程提醒。第2个镜头[3-5秒] 特写镜头,手表屏幕切换到健康监测界面,显示心率和步数数据。第3个镜头[5-8秒] character1在健身房运动,手表自动识别运动模式并开始记录。第4个镜头[8-10秒] 手表收到消息通知,character1轻触屏幕查看详情,操作流畅自然。",
        "reference_urls":["https://cdn.wanx.aliyuncs.com/static/demo-wan26/vace.mp4"]
    },
    "parameters": {
        "size": "1280*720",
        "duration": 10,
        "shot_type":"multi",
        "watermark": true
    }
}'

步骤2:根据任务ID获取结果

{task_id}完整替换为上一步接口返回的task_id的值。

curl -X GET https://dashscope.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"

生成无声视频

支持模型wan2.6-r2v-flash

功能介绍:适用于无需音频的纯视觉展示场景,如动态海报、无声短视频等。

参数设置

  • audio:若需生成无声视频,必须显式设置 audio = false

  • prompt:传入一个参考素材时,使用“character1”引用角色。

输入提示词

输入视频character1

输出视频(无声视频)

character1一边喝奶茶,一边随着音乐即兴跳舞。

curl

步骤1:创建任务获取任务ID

curl --location 'https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
    -H 'X-DashScope-Async: enable' \
    -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
    -H 'Content-Type: application/json' \
    -d '{
    "model": "wan2.6-r2v-flash",
    "input": {
        "prompt": "character1一边喝奶茶,一边随着音乐即兴跳舞。",
        "reference_urls":["https://cdn.wanx.aliyuncs.com/static/demo-wan26/vace.mp4"]
    },
    "parameters": {
        "size": "1280*720",
        "duration": 5,
        "shot_type":"multi",
        "audio": false,
        "watermark": true
    }
}'

步骤2:根据任务ID获取结果

{task_id}完整替换为上一步接口返回的task_id的值。

curl -X GET https://dashscope.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"

如何输入参考素材

输入图像

  • 图像数量:最多5张。

  • 总数限制:图像 + 视频 ≤ 5。

  • 输入方式

    • 公网URL:支持 HTTP 或 HTTPS 协议。示例:https://xxxx/xxx.png。

    • 临时URL:支持OSS协议,必须通过上传文件获取临时 URL。示例:oss://dashscope-instant/xxx/xxx.png。

输入视频

  • 视频数量:最多3个。

  • 总数限制:图像 + 视频 ≤ 5。

  • 输入方式

    • 公网URL:支持 HTTP 或 HTTPS 协议。示例:https://xxxx/xxx.mp4。

    • 临时URL:支持OSS协议,必须通过上传文件获取临时 URL。示例:oss://dashscope-instant/xxx/xxx.mp4。

输出视频

  • 视频个数:1个。

  • 视频规格:格式为MP4。详细规格请参见支持的模型

  • 视频URL有效期24小时

  • 视频尺寸:由size指定的分辨率决定。例如,当 size 设置为 1280*720 时,输出视频的宽高比为 16:9

计费与限流

  • 模型免费额度和计费单价请参见万相-参考生视频

  • 模型限流请参见通义万相系列

  • 计费说明:

    • 输入图像不计费,输入视频和输出视频计费,按视频秒数计费。

    • 模型调用失败或处理错误不产生任何费用,也不消耗新人免费额度

    • 有声视频与无声视频价格不同(如wan2.6-r2v-flash)。

  • 计费时长计算规格:

    • 总计费时长 = 输入视频时长(上限5秒)+ 输出视频时长

    • 输入视频计费时长:总输入视频计费时长不超过 5 秒

      • 计算规则:按参考素材总数(图像 + 视频)均分,作为单个视频的截断上限。每个视频按 min(实际时长, 截断上限) 计费,多和视频计费时长累计相加。

      • 示例:输入 3 个素材(1 张图像 + 2 个视频),单视频截断上限为 1.65 秒,则:

        输入计费时长 = min(视频1时长, 1.65s) + min(视频2时长, 1.65s),图像不计费。

    • 输出视频计费时长:模型成功生成的视频秒数

更多示例:输入视频计费时长计算

  • 输入1个参考素材:单视频截断上限为5秒。

    • 若为视频:输入计费时长=min(视频时长,5s)

    • 若为图像:免费。

  • 输入2个参考素材:单视频截断上限为2.5秒。

    • 1个视频+1张图像:输入计费时长=min(视频1时长,2.5s)

    • 2个视频:输入计费时长=min(视频1时长,2.5s)+ min(视频2时长,2.5s)

  • 输入3个参考素材:单视频截断上限为1.65秒。

    • 1个视频+2张图像:输入计费时长=min(视频1长度,1.65s)

    • 3个视频:输入计费时长=min(视频1长度,1.65s)+ min(视频2长度,1.65s)+min(视频3长度,1.65s)

  • 输入4个参考素材:单视频截断上限为1.25秒。

    • 2个视频+2张图像:输入计费时长=min(视频1长度,1.25s)+ min(视频2长度,1.25s)

    • 3个视频+1张图像:输入计费时长=min(视频1长度,1.25s)+ min(视频2长度,1.25s)+min(视频3长度,1.25s)

  • 输入5个参考素材:单视频截断上限为1秒。

    • 1个视频+4张图像:输入计费时长=min(视频1长度,1s)

    • 3个视频+2张图像:输入计费时长=min(视频1长度,1s)+ min(视频2长度,1s)+min(视频3长度,1s)

API文档

参考生视频API参考

常见问题

Q:如何设置视频宽高比(如 16:9)?

A:通过 size 参数指定视频分辨率,系统将根据该分辨率自动确定宽高比。

例如,设置 size=1280*720 即可输出 16:9 的视频。每个size对应一个固定的宽高比,请根据目标比例选择合适的分辨率。

Q:如何在提示词中引用参考素材中的角色?

A:每个参考素材(视频或图像)仅包含单一角色。使用 character1character2 等标识引用参考中的角色,顺序对应 reference_urls 数组的顺序。例如:

"reference_urls":[
    'https://example.com/girl.mp4',   # character1
    'https://example.com/clock.mp4'   # character2
]