MaxFrame自驾视频数据智能处理Skill

更新时间:
复制为 MD 格式

本文介绍MaxFrame自驾视频数据智能处理Skill的功能、核心能力和适用场景。

功能概述

MaxFrame自驾视频数据智能处理Skill是面向自驾视频数据处理场景的作业脚手架生成器。只需描述输入表与处理目标,即可一键产出可直接在MaxComputeMaxFrame上运行的完整Pipeline代码、表结构建议与运行手册。

适用场景

  • 自驾 / 智驾 / 视觉数据团队需要快速搭建从视频到图像、标签并最后到向量 Pipeline的过程。

  • 将存量 UDF + DashScope 直连改造为 AI FUNC 托管调用。

  • 生成具备生产级行级容错与可观测性的代码。

场景

输入

期望产出

视频抽帧

视频表(含 OSS 路径)

帧图像表

抽帧 、打标与生成Embedding

视频表

带标签 / 向量的图像表(自动拆分为两段作业)

关键帧打标

Clip 目录表

带标签的关键帧表

图像直接打标 / 向量化

图像表

标签 + Embedding 表

图像表追加 Embedding

已标注图像表

带向量列的图像表

使用流程

用户描述需求
    ↓
Skill 自动判别 Pipeline 形态
    ↓
(如有歧义)询问缺失最小输入
    ↓
生成代码 + 表结构 + 运行手册
    ↓
用户在 MaxCompute / MaxFrame 直接提交运行

产出物清单

每次调用 Skill,会得到:

  1. 主作业代码*.py)—— 可直接运行的 MaxFrame 程序

  2. 表结构建议*_schema.sql,可选)—— 输入 / 中间 / 输出表的 DDL

  3. 运行手册*_walkthrough.md)—— 包含场景类型、运行顺序、所需环境变量、上下游表期望

核心能力

自驾、智驾、舱内视觉等场景的数据团队,通常需要将视频转化为可检索、可训练的标注与向量数据。这一过程涉及以下关键环节:视频抽帧、关键帧筛选与打标、图像及文本Embedding生成、MaxComputeOSS多源数据流转以及分布式并发与失败容错。

  • 传统方式下,业务团队需要手写UDF、维护DashScopeHTTP客户端、处理OSS鉴权、控制并发、管理失败重试,单条Pipeline至少需要几天到一周才能上线。

  • 使用自驾视频数据智能处理Skill,只需描述输入数据和期望产出,即可在几分钟内获取符合MaxFrame最佳实践的完整作业代码。

其使用优势如下:

一句话生成完整作业

只需提供四个最小输入:

  • 场景名(scenario_name

  • 输入数据形态(input_shape

  • 处理目标(targets

  • 输出表名(output_table / output_tables

Skill 会自动选择 Pipeline 形态、生成主程序代码、编写表结构与运行说明。

内置 MaxFrame 最佳实践

  • 使用 MaxFrame AI Function + 托管的百炼大模型read_odps_model)进行打标与向量化,免维护 DashScope Key、免封装 UDF

  • 视频任务自动拆分为"抽帧 → 图像处理"两段作业,便于复跑与中间结果复用

  • OSS 路径用 with_fs_mount 挂载,并发用 rebalance 控制

  • 写出统一收口在 to_odps_table().execute()

行级容错,可复跑

所有模型阶段输出统一携带 status / error_stage / error_msg 三个字段:

  • 单条失败不影响整批作业

  • 失败原因精确到阶段(抽帧 / 打标 / Embedding 解析)

  • 支持精准重跑失败行

安全与合规默认开启

  • 不写死任何敏感信息:模型名、OSS Bucket、MaxCompute Project、密钥均通过环境变量配置

  • 路径安全校验:拒绝 .. 路径穿越、强制保持在声明的 OSS 前缀下

  • 客户中心:生成代码不含任何客户名、私有 Prompt 或业务规则

成本与性能可控

  • 标签生成默认关闭 thinking,降低 token 开销

  • Embedding 阶段独立,可按需开启 / 关闭

  • token 使用量按阶段返回(label_input_tokenlabel_output_token*_total_token),便于成本归因