AI视频翻译-视频点播(VOD)-阿里云帮助中心

视频翻译技术利用人工智能和机器学习算法，能够高效、准确地将视频内容从源语言转换为一种或多种目标语言。视频点播工作流2.0支持集成智能媒体服务（IMS）的字幕级翻译、语音级翻译，作为工作流中的一个功能节点，可实现自动化、流程化的视频翻译处理。本文为您介绍如何在工作流使用视频翻译。

说明

目前已开通的区域为：

字幕级翻译：华东2（上海）、华北2（北京）、华南1（深圳）、亚太东南 1（新加坡）、美洲（美国-西部）。
语音级翻译：华东2（上海）、华北2（北京）、华南1（深圳）、亚太东南 1（新加坡）、美洲（美国-西部）。

前提条件

使用工作流视频翻译能力节点需要开通视频点播和智能媒体服务并订阅标准版，详情请参见订阅计费制。

功能优势

全链路多语言翻译：

支持超过40种国家语言的翻译服务。
提供中国10多种方言的支持，满足多样化的语音需求。
一次翻译任务支持输出超过40种不同的目标语言。

原声复刻情感同步：

高保真音色复刻，还原是谁在说话。
细粒度情感同步，传递此刻的情绪。

多格式兼容无缝接入：

支持多种主流视频格式，包括MP4、WebM、MOV、M3U8等，确保内容无缝集成。
支持MP3、WAV等多种音频格式。
允许用户进行个性化配置，以满足不同场景下的具体需求。

功能特性

视频点播工作流支持智能媒体服务所提供的视频翻译服务，涵盖字幕级翻译、语音（口播）级翻译。其主要功能特性包括：

功能	功能描述	特性亮点
字幕级翻译	提取现有视频字幕擦除原字幕多语种字幕翻译一次翻译任务支持输出多目标语种视频新字幕回填	高效、准确的文字翻译，适用于需要快速添加多语言支持的场景。
语音（口播）级翻译	在字幕级翻译的基础上还支持：音色复刻使用原说话人的音色进行字幕播报一次翻译任务支持输出多目标语种视频完成音频回填	在文字翻译的基础上增加了声音维度，保持了原声的真实性和情感传递，提升观众体验。
语音翻译修正/二次剪辑	可通过云剪辑（可视化操作）和OpenAPI对翻译结果进行语音、字幕翻译的二次修正。支持翻译后视频的再创作。	灵活调整翻译输出，满足个性化需求，允许用户根据具体情况进行微调，以达到最佳效果。

计费说明

视频点播工作流的视频翻译功能由智能媒体服务（IMS）提供，使用需购买【IMS订阅服务】并支付使用费用，详情请参见：视频翻译。

使用说明

步骤一：通过控制台配置视频翻译工作流

目前仅支持通过点播控制台创建工作流。

登录视频点播控制台。
在左侧导航栏选择配置管理 > 媒体处理配置 > 工作流管理，进入到工作流管理页面。
单击添加工作流模板，输入工作流名称。
在工作流编辑页面，点击开始节点右侧的+按钮，添加视频翻译节点。
根据页面提示，在右侧面板完成参数配置：
- 节点名称：自定义视频翻译节点名称。
- 翻译方式：可选择字幕级翻译、语音级翻译。
- 示例素材：用于字幕设置的示例视频，不参与工作流任务。支持mp4、webm、mov、m3u8格式的视频。
- 字幕来源：字幕来源包括OCR识别、ASR识别和OCR+ASR识别三种方式。
  - OCR识别：当您没有现成的字幕文件但拥有带有可见文字的视频时，可以通过OCR识别技术从视频画面中提取字幕文本。为了提高效率和准确性，用户还可以指定OCR识别范围。
  - ASR识别：如果您的视频文件没有字幕，可以通过ASR识别从音轨中识别语音提取字幕。
  - OCR+ASR识别：结合OCR和ASR的一种提取字幕的方式，优先使用OCR识别字幕，如果OCR识别失败，则通过ASR识别获取到字幕。
- 翻译语言：支持一次性选择多个目标语言，提交翻译任务后，系统将为您生成多个目标语言的视频文件。
- 输出目标字幕类型：可选单语字幕或双语字幕。
- 字幕设置：如果选择了字幕合成，在编辑字幕样式弹窗根据页面提示完成字幕设置，包含基础与花字。
  - 基础设置：可设置字幕的字体、对齐方式、位置、自动换行、间距、样式、字体颜色、不透明度等，并可在预览内容中输入文字查看设置后的字体效果。
  - 花字设置：内置了许多实用的花字特效，可根据实际需求选择使用。
- 擦除原字幕：开启后，支持擦除原有视频字幕，识别范围包含智能识别和手动框选两种方式。
- 是否开启二次编辑：开启后保留所有中间文件（含目标语言字幕、翻译音频及字幕擦除视频），并生成剪辑工程供二次创作或修正。启用后不建议新增转码节点，二次编辑需在智能媒体服务配置，非必要请关闭以避免额外费用。
完成配置后点击确定，提交工作流模板生成工作流ID，请记录该ID用于后续上传时指定工作流。

步骤二：触发工作流

使用创建的工作流处理视频，支持上传时或上传后发起任务。

通过控制台发起工作流处理

上传视频时发起

登录视频点播控制台。
在左侧导航栏选择媒资库 > 音/视频，单击上传音/视频。
在上传音/视频界面，单击添加音/视频，选择上传方式、存储地址等参数后，选择用工作流处理，并指定为上一步创建的工作流。

上传视频后发起

登录视频点播控制台。
在左侧导航栏选择媒资库 > 音/视频，进入音/视频列表页面。
单击目标音视频操作列的媒体处理，选择用工作流处理，并指定为上一步创建的工作流。

通过OpenAPI发起工作流处理

上传视频时发起

获取音视频上传地址和凭证接口仅用于获取上传地址和凭证以及创建媒资基础信息，并非上传文件，需要开发者自行实现所有上传逻辑。通过接口上传的完整示例，请参见通过视频点播API上传媒体文件。
调用获取音视频上传地址和凭证或URL批量拉取上传接口上传音视频时，将WorkflowId参数指定为上一步创建的工作流ID，则音视频上传完成后，点播系统将自动根据您指定的工作流进行处理。

上传视频后发起

调用提交点播工作流作业接口，将WorkflowId参数指定为上一步创建的工作流ID，可以立即对音视频进行工作流处理。

步骤三：结果查询

通过视频点播控制台查询

登录视频点播控制台。
在左侧导航栏选择媒资库 > 音/视频，进入音/视频列表页面。
在音/视频列表页面，找到由工作流生成的翻译视频（可通过源视频名称、创建时间等筛选）。

通过智能媒体服务控制台查询

登录智能媒体服务控制台。
在左侧导航栏选择智能生产制作 > 视频翻译，进入视频翻译任务列表页面。
在任务列表页面，找到由工作流生成的翻译任务（可通过媒资ID、创建时间等筛选）。
当任务状态为处理完成时，点击查看详情，即可查看：
- 翻译视频的源视频信息。
- 翻译视频的存储地址。
- 翻译方式、翻译语言、状态、输出结果等详细信息。

通过工作流任务回调查询

配置HTTP或轻量消息队列（原MNS）回调。
当工作流任务完成时，系统会触发工作流任务完成事件，并通过配置的HTTP或轻量消息队列（原MNS）回调推送完整结果。关键字段说明如下：
1. Status：任务整体状态（Succeed/Failed）。
2. ActivityResults：JSON 字符串，包含各节点（如 VideoTranslation）的执行详情，其中 Result 字段内含翻译输出的 MediaId、JobId 等关键信息。
3. TaskInput：原始输入媒体信息（如 Media ID、文件名等）。
解析回调消息体中的 ActivityResults，即可提取翻译生成的视频 MediaId 并用于后续播放或分发。

通过OpenAPI查询

可调用以下接口查询任务结果：

GetSmartHandleJob - 获取智能任务结果：传入翻译任务的 JobId（可在工作流任务的 ActivityResults.Result.JobId 中获取），返回该翻译作业的详细状态与输出结果。
ListSmartJobs - 获取任务列表：列出所有智能任务（包括翻译），用于批量检索。

步骤四：语音翻译-二次修正（可选）

视频点播工作流视频翻译节点支持翻译二次修正。若对语音级翻译结果不满意，请在提交任务前启用是否开启二次编辑。以下介绍两种语音级翻译修正方法。

说明

配置视频翻译节点时，请确保开启是否开启二次编辑开关。

通过云剪辑（webSDK）修正

准备工作。
请先参考云剪辑相关操作指南。
操作流程。
1. 登录智能媒体服务控制台。
2. 在左侧导航栏选择智能生产制作 > 视频翻译，进入视频翻译任务列表页面。
3. 单击目标任务操作列的翻译修正/剪辑按钮，以打开相应的云剪辑工程进行剪辑。后续操作详见下方视频讲解：

通过OpenAPI修正

可通过OpenAPI修正语音级翻译结果。详情请参见语音翻译 - 人工修正。