万相-图生视频API参考

更新时间:
复制为 MD 格式

万相-图生视频模型全新升级,支持多模态输入(文本/图像/音频/视频),可完成首帧生视频、首尾帧生视频、视频续写三大任务。

说明

全新推出的图生视频 API(wan2.7-i2v模型)支持上述三大任务,推荐优先选用

图生视频-基于首帧(wan2.6及早期模型)仅支持首帧生视频。

适用范围

为确保调用成功,请务必保证模型、endpoint URL 和 API Key 均属于同一地域。跨地域调用将会失败。

说明

本文的示例代码适用于北京地域

HTTP调用

重要

此接口为图生视频新版协议,仅支持wan2.7模型

图生视频任务耗时较长(通常为1-5分钟),API采用异步调用的方式。整个流程包含 “创建任务 -> 轮询获取” 两个核心步骤,具体如下:

步骤1:创建任务获取任务ID

北京

POST https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis

新加坡

POST https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis

说明
  • 创建成功后,使用接口返回的 task_id 查询结果,task_id 有效期为 24 小时。请勿重复创建任务,轮询获取即可。

  • 新手指引请参见Postman

请求参数

首帧生视频

基于首帧图像和音频生成视频。

curl --location 'https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
    -H 'X-DashScope-Async: enable' \
    -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
    -H 'Content-Type: application/json' \
    -d '{
    "model": "wan2.7-i2v",
    "input": {
        "prompt": "一幅都市奇幻艺术的场景。一个充满动感的涂鸦艺术角色。一个由喷漆所画成的少年,正从一面混凝土墙上活过来。他一边用极快的语速演唱一首英文rap,一边摆着一个经典的、充满活力的说唱歌手姿势。场景设定在夜晚一个充满都市感的铁路桥下。灯光来自一盏孤零零的街灯,营造出电影般的氛围,充满高能量和惊人的细节。视频的音频部分完全由rap构成,没有其他对话或杂音。",
        "media": [
            {
                "type": "first_frame",
                "url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250925/wpimhv/rap.png"
            },
            {
                "type": "driving_audio",
                "url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250925/ozwpvi/rap.mp3"
                
            }
        ]
    },
    "parameters": {
        "resolution": "720P",
        "duration": 10,
        "prompt_extend": true,
        "watermark": true
    }
}'

首尾帧生视频

传入首帧和尾帧生成视频。

curl --location 'https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
    -H 'X-DashScope-Async: enable' \
    -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
    -H 'Content-Type: application/json' \
    -d '{
    "model": "wan2.7-i2v",
    "input": {
        "prompt": "写实风格,一只小黑猫好奇地仰望天空,镜头从平视角度逐渐升高,最后以俯视角度捕捉到它好奇的眼神。",
        "media": [
            {
                "type": "first_frame",
                "url": "https://wanx.alicdn.com/material/20250318/first_frame.png"
            },
            {
                "type": "last_frame",
                "url": "https://wanx.alicdn.com/material/20250318/last_frame.png"
            }
        ]
    },
    "parameters": {
        "resolution": "720P",
        "duration": 10,
        "prompt_extend": false,
        "watermark": true
    }
}'

视频续写

基于首段视频片段,让模型生成后续内容。

curl --location 'https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
    -H 'X-DashScope-Async: enable' \
    -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
    -H 'Content-Type: application/json' \
    -d '{
    "model": "wan2.7-i2v",
    "input": {
        "prompt": "一只戴着墨镜的狗在街道上滑滑板,3D卡通。",
        "media": [
            {
                "type": "first_clip",
                "url": "http://wanx.alicdn.com/material/20250318/video_extension_1.mp4"
            }
        ]
    },
    "parameters": {
        "resolution": "720P",
        "duration": 10,
        "prompt_extend": true,
        "watermark": true
    }
}'

Content-Type string (必选)

请求内容类型。此参数必须设置为application/json

Authorization string(必选)

请求身份认证。接口使用阿里云百炼API-Key进行身份认证。示例值:Bearer sk-xxxx。

X-DashScope-Async string (必选)

异步处理配置参数。HTTP请求只支持异步,必须设置为enable

重要

缺少此请求头将报错:“current user api does not support synchronous calls”。

请求体(Request Body)

model string (必选)

模型名称。模型列表与价格详见模型价格

示例值:wan2.7-i2v。

input object (必选)

输入的基本信息,如提示词等。

属性

prompt string (可选)

文本提示词。用来描述生成图像中期望包含的元素和视觉特点。

支持中英文,每个汉字/字母占一个字符,超过部分会自动截断。长度限制因模型版本而异:

  • wan2.7-i2v:长度不超过5000个字符。

示例值:一只小猫在草地上奔跑。

提示词使用技巧详见文生视频/图生视频Prompt指南

negative_prompt string (可选)

反向提示词,用来描述不希望在视频画面中看到的内容,可以对视频画面进行限制。

支持中英文,长度不超过500个字符,超过部分会自动截断。

示例值:低分辨率、错误、最差质量、低质量、残缺、多余的手指、比例不良等。

media array (必选)

媒体素材列表,用于指定视频生成所需的参考素材(图像、音频和视频)。

数组的每个元素为一个媒体对象,包含 typeurl 字段。

素材组合

仅支持以下特定的素材组合,非法组合将报错。

  • 首帧生视频

    • 首帧:first_frame

    • 首帧+音频:first_frame+driving_audio

  • 首尾帧生视频

    • 首帧+尾帧:first_frame+last_frame

    • 首帧+尾帧+音频:first_frame+last_frame+driving_audio

  • 视频续写

    • 首段视频续写:first_clip

    • 首段视频+尾帧续写:first_clip+last_frame

属性

type string (必选)

媒体素材类型。可选值为:

  • first_frame:首帧。

  • last_frame:尾帧。

  • driving_audio:驱动音频。

  • first_clip:首视频片段。

使用限制:每种 typemedia 数组中最多出现一次(例如:不可同时传入两个 first_frame)。

url string (必选)

媒体素材URL。素材包括图像、音频和视频。

传入图像(type=first_framelast_frame)

首帧或尾帧URL。目前支持首帧生视频、首尾帧生视频。

图像限制:

  • 格式:JPEG、JPG、PNG(不支持透明通道)、BMP、WEBP。

  • 分辨率:宽和高的范围为[240, 8000]像素。

  • 宽高比:1:8~8:1。

  • 文件大小:不超过20MB。

支持输入的格式:

  1. 公网URL:

    • 支持 HTTP 或 HTTPS 协议。

    • 示例值:https://xxx/xxx.png。

  2. 临时URL:

传入音频(type=driving_audio)

音频文件的 URL。

  • 传入音频:模型将以该音频为驱动源生成视频(如口型同步、动作卡点等)。

  • 未传入音频:模型将根据视频画面内容,自动生成匹配的背景音乐或音效。

音频限制:

  • 格式:wav、mp3。

  • 时长:2~30s。

  • 文件大小:不超过15MB。

  • 截断处理:若音频长度超过 duration 值(如5秒),自动截取前5秒,其余部分丢弃。若音频长度不足视频时长,超出音频长度部分为无声视频。例如,音频为3秒,视频时长为5秒,输出视频前3秒有声,后2秒无声。

支持输入的格式:

  1. 公网URL:

    • 支持 HTTP 和 HTTPS 协议。

    • 示例值:https://xxx/xxx.mp3。

  2. 临时URL:

传入视频(type=first_clip)

视频文件的 URL。模型将基于该视频内容进行续写生成,续写时长的上限由 duration 参数控制。

例如:当duration=15时,输入视频 3 秒,则模型续写生成 12 秒,最终输出视频总时长 15 秒, 按 15 秒计费。

视频限制:

  • 格式:mp4、mov。

  • 时长:2~10s。

  • 分辨率:宽和高的范围为[240, 4096]像素。

  • 宽高比:1:8~8:1。

  • 文件大小:不超过100MB。

支持输入的格式:

  1. 公网URL:

    • 支持 HTTP 和 HTTPS 协议。

    • 示例值:https://xxx/xxx.mp4。

  2. 临时URL:

parameters object (可选)

视频处理参数,如设置视频分辨率、设置视频时长、开启prompt智能改写、添加水印等。

属性

resolution string (可选)

重要

resolution直接影响费用,请在调用前确认模型价格

指定生成的视频分辨率档位,用于控制视频的清晰度(总像素)。

模型根据选择的分辨率档位,自动缩放至相近总像素。视频宽高比尽量与输入素材(首帧或首段视频)保持一致,详见常见问题

  • wan2.7-i2v:可选值:720P、1080P。默认值为1080P

示例值:1080P。

duration integer (可选)

重要

duration直接影响费用,按秒计费,请在调用前确认模型价格

生成视频的时长,单位为秒。该参数的取值依赖于 model参数:

  • wan2.7-i2v:取值为[2, 15]之间的整数。默认值为5。

示例值:5。

prompt_extend boolean (可选)

是否开启prompt智能改写。开启后使用大模型对输入prompt进行智能改写。对于较短的prompt生成效果提升明显,但会增加耗时。

  • true:默认值,开启智能改写。

  • false:不开启智能改写。

示例值:true。

watermark boolean (可选)

是否添加水印标识,水印位于视频右下角,文案固定为“AI生成”。

  • false:默认值,不添加水印。

  • true:添加水印。

示例值:false。

seed integer (可选)

随机数种子,取值范围为[0, 2147483647]

未指定时,系统自动生成随机种子。若需提升生成结果的可复现性,建议固定seed值。

请注意,由于模型生成具有概率性,即使使用相同 seed,也不能保证每次生成结果完全一致。

响应参数

成功响应

请保存 task_id,用于查询任务状态与结果。

{
    "output": {
        "task_status": "PENDING",
        "task_id": "0385dc79-5ff8-4d82-bcb6-xxxxxx"
    },
    "request_id": "4909100c-7b5a-9f92-bfe5-xxxxxx"
}

异常响应

创建任务失败,请参见错误信息进行解决。

{
    "code": "InvalidApiKey",
    "message": "No API-key provided.",
    "request_id": "7438d53d-6eb8-4596-8835-xxxxxx"
}

output object

任务输出信息。

属性

task_id string

任务ID。查询有效期24小时。

task_status string

任务状态。

枚举值

  • PENDING:任务排队中

  • RUNNING:任务处理中

  • SUCCEEDED:任务执行成功

  • FAILED:任务执行失败

  • CANCELED:任务已取消

  • UNKNOWN:任务不存在或状态未知

request_id string

请求唯一标识。可用于请求明细溯源和问题排查。

code string

请求失败的错误码。请求成功时不会返回此参数,详情请参见错误信息

message string

请求失败的详细信息。请求成功时不会返回此参数,详情请参见错误信息

步骤2:根据任务ID查询结果

北京

GET https://dashscope.aliyuncs.com/api/v1/tasks/{task_id}

新加坡

GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id}

说明
  • 轮询建议:视频生成过程约需数分钟,建议采用轮询机制,并设置合理的查询间隔(如 15 秒)来获取结果。

  • 任务状态流转:PENDING(排队中)→ RUNNING(处理中)→ SUCCEEDED(成功)/ FAILED(失败)。

  • 结果链接:任务成功后返回视频链接,有效期为 24 小时。建议在获取链接后立即下载并转存至永久存储(如阿里云 OSS)。

  • task_id 有效期24小时,超时后将无法查询结果,接口将返回任务状态为UNKNOWN

  • RPS 限制:查询接口默认RPS20。如需更高频查询或事件通知,建议配置异步任务回调

  • 更多操作:如需批量查询、取消任务等操作,请参见管理异步任务

请求参数

查询任务结果

{task_id}完整替换为上一步接口返回的task_id的值。task_id查询有效期为24小时。

curl -X GET https://dashscope.aliyuncs.com/api/v1/tasks/{task_id} \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"
请求头(Headers)

Authorization string(必选)

请求身份认证。接口使用阿里云百炼API-Key进行身份认证。示例值:Bearer sk-xxxx。

URL路径参数(Path parameters)

task_id string(必选)

任务ID。

响应参数

任务执行成功

视频URL仅保留24小时,超时后会被自动清除,请及时保存生成的视频。

{
    "request_id": "2ca1c497-f9e0-449d-9a3f-xxxxxx",
    "output": {
        "task_id": "af6efbc0-4bef-4194-8246-xxxxxx",
        "task_status": "SUCCEEDED",
        "submit_time": "2025-09-25 11:07:28.590",
        "scheduled_time": "2025-09-25 11:07:35.349",
        "end_time": "2025-09-25 11:17:11.650",
        "orig_prompt": "一幅都市奇幻艺术的场景。一个充满动感的涂鸦艺术角色。一个由喷漆所画成的少年,正从一面混凝土墙上活过来。他一边用极快的语速演唱一首英文rap,一边摆着一个经典的、充满活力的说唱歌手姿势。场景设定在夜晚一个充满都市感的铁路桥下。灯光来自一盏孤零零的街灯,营造出电影般的氛围,充满高能量和惊人的细节。视频的音频部分完全由他的rap构成,没有其他对话或杂音。",
        "video_url": "https://dashscope-result-sh.oss-cn-shanghai.aliyuncs.com/xxx.mp4?Expires=xxx"
    },
    "usage": {
        "duration": 15,
        "input_video_duration": 0,
        "output_video_duration": 15,
        "video_count": 1,
        "SR": 720
    }
}

任务执行失败

若任务执行失败,task_status将置为 FAILED,并提供错误码和信息。请参见错误信息进行解决。

{
    "request_id": "e5d70b02-ebd3-98ce-9fe8-759d7d7b107d",
    "output": {
        "task_id": "86ecf553-d340-4e21-af6e-a0c6a421c010",
        "task_status": "FAILED",
        "code": "InvalidParameter",
        "message": "The size is not match xxxxxx"
    }
}

任务查询过期

task_id查询有效期为 24 小时,超时后将无法查询,返回以下报错信息。

{
    "request_id": "a4de7c32-7057-9f82-8581-xxxxxx",
    "output": {
        "task_id": "502a00b1-19d9-4839-a82f-xxxxxx",
        "task_status": "UNKNOWN"
    }
}

output object

任务输出信息。

属性

task_id string

任务ID。查询有效期24小时。

task_status string

任务状态。

枚举值

  • PENDING:任务排队中

  • RUNNING:任务处理中

  • SUCCEEDED:任务执行成功

  • FAILED:任务执行失败

  • CANCELED:任务已取消

  • UNKNOWN:任务不存在或状态未知

轮询过程中的状态流转:

  • PENDING(排队中) → RUNNING(处理中)→ SUCCEEDED(成功)/ FAILED(失败)。

  • 初次查询状态通常为 PENDING(排队中)或 RUNNING(处理中)。

  • 当状态变为 SUCCEEDED 时,响应中将包含生成的视频url。

  • 若状态为 FAILED,请检查错误信息并重试。

submit_time string

任务提交时间。格式为 YYYY-MM-DD HH:mm:ss.SSS。

scheduled_time string

任务执行时间。格式为 YYYY-MM-DD HH:mm:ss.SSS。

end_time string

任务完成时间。格式为 YYYY-MM-DD HH:mm:ss.SSS。

video_url string

视频URL。仅在 task_status 为 SUCCEEDED 时返回。

链接有效期24小时,可通过此URL下载视频。视频格式为MP4(H.264 编码)。

orig_prompt string

原始输入的prompt,对应请求参数prompt

code string

请求失败的错误码。请求成功时不会返回此参数,详情请参见错误信息

message string

请求失败的详细信息。请求成功时不会返回此参数,详情请参见错误信息

usage object

输出信息统计,只对成功的结果计数。

属性

input_video_duration integer

输入的视频的时长,单位秒。

output_video_duration integer

输出视频的时长,单位秒。

duration integer

总的视频时长,用于计费。

SR integer

输出视频的分辨率档位。示例值:720。

video_count integer

输出视频的数量。固定为1。

request_id string

请求唯一标识。可用于请求明细溯源和问题排查。

使用限制

  • 数据时效:任务task_id和 视频video_url均只保留 24 小时,过期后将无法查询或下载。

  • 内容审核:输入的内容(如prompt、图像、视频)、输出视频均会经过内容安全审核,含违规内容将返回 “IPInfringementSuspect”或“DataInspectionFailed”错误,详见参见错误信息

错误码

如果模型调用失败并返回报错信息,请参见错误信息进行解决。

常见问题

Q:如何生成特定宽高比(如3:4)的视频?

A: 输出视频的宽高比由 输入素材(首帧图像或首视频片段)决定,但无法保证严格等于输入比例(如精确 3:4),实际输出会存在微小偏差。

下面以“输入首帧图像”为例说明具体逻辑:

  • 为什么会有偏差?

    • 执行逻辑:以输入图像的比例为基准比例参考,结合 resolution 档位的目标总像素,且视频长宽必须为 16 的倍数(视频编码规范),系统会自动微调至最接近的合法分辨率。

    • 计算示例:输入首帧图像750×1000(宽高比 3:4 = 0.75),并设置 resolution = "720P"(目标总像素约 92 万),实际输出视频的分辨率为816×1104(宽高比 ≈ 0.739,总像素约90万)。

  • 实践建议

    • 输入控制:尽量使用与目标比例一致的首帧或首视频片段作为输入。

    • 后期处理:如果您对比例有严格要求,建议在视频生成后,使用编辑工具进行简单的裁剪或黑边填充。

Q:如何获取视频存储的访问域名白名单?

A: 模型生成的视频存储于阿里云OSS,API将返回一个临时的公网URL。若需要对该下载地址进行防火墙白名单配置,请注意:由于底层存储会根据业务情况进行动态变更,为避免过期信息影响访问,文档不提供固定的OSS域名白名单。如有安全管控需求,请联系客户经理获取最新OSS域名列表。