本文介绍MaxFrame自驾视频数据智能处理Skill的功能、核心能力和适用场景。
功能概述
MaxFrame自驾视频数据智能处理Skill是面向自驾视频数据处理场景的作业脚手架生成器。只需描述输入表与处理目标,即可一键产出可直接在MaxCompute和MaxFrame上运行的完整Pipeline代码、表结构建议与运行手册。
适用场景
自驾 / 智驾 / 视觉数据团队需要快速搭建从视频到图像、标签并最后到向量 Pipeline的过程。
将存量 UDF + DashScope 直连改造为 AI FUNC 托管调用。
生成具备生产级行级容错与可观测性的代码。
场景 | 输入 | 期望产出 |
视频抽帧 | 视频表(含 OSS 路径) | 帧图像表 |
抽帧 、打标与生成Embedding | 视频表 | 带标签 / 向量的图像表(自动拆分为两段作业) |
关键帧打标 | Clip 目录表 | 带标签的关键帧表 |
图像直接打标 / 向量化 | 图像表 | 标签 + Embedding 表 |
图像表追加 Embedding | 已标注图像表 | 带向量列的图像表 |
使用流程
用户描述需求
↓
Skill 自动判别 Pipeline 形态
↓
(如有歧义)询问缺失最小输入
↓
生成代码 + 表结构 + 运行手册
↓
用户在 MaxCompute / MaxFrame 直接提交运行产出物清单
每次调用 Skill,会得到:
主作业代码(
*.py)—— 可直接运行的 MaxFrame 程序表结构建议(
*_schema.sql,可选)—— 输入 / 中间 / 输出表的 DDL运行手册(
*_walkthrough.md)—— 包含场景类型、运行顺序、所需环境变量、上下游表期望
核心能力
自驾、智驾、舱内视觉等场景的数据团队,通常需要将视频转化为可检索、可训练的标注与向量数据。这一过程涉及以下关键环节:视频抽帧、关键帧筛选与打标、图像及文本Embedding生成、MaxCompute与OSS多源数据流转以及分布式并发与失败容错。
传统方式下,业务团队需要手写UDF、维护DashScope或HTTP客户端、处理OSS鉴权、控制并发、管理失败重试,单条Pipeline至少需要几天到一周才能上线。
使用自驾视频数据智能处理Skill,只需描述输入数据和期望产出,即可在几分钟内获取符合MaxFrame最佳实践的完整作业代码。
其使用优势如下:
一句话生成完整作业
只需提供四个最小输入:
场景名(
scenario_name)输入数据形态(
input_shape)处理目标(
targets)输出表名(
output_table/output_tables)
Skill 会自动选择 Pipeline 形态、生成主程序代码、编写表结构与运行说明。
内置 MaxFrame 最佳实践
使用 MaxFrame AI Function + 托管的百炼大模型(
read_odps_model)进行打标与向量化,免维护 DashScope Key、免封装 UDF视频任务自动拆分为"抽帧 → 图像处理"两段作业,便于复跑与中间结果复用
OSS 路径用
with_fs_mount挂载,并发用rebalance控制写出统一收口在
to_odps_table().execute()
行级容错,可复跑
所有模型阶段输出统一携带 status / error_stage / error_msg 三个字段:
单条失败不影响整批作业
失败原因精确到阶段(抽帧 / 打标 / Embedding 解析)
支持精准重跑失败行
安全与合规默认开启
不写死任何敏感信息:模型名、OSS Bucket、MaxCompute Project、密钥均通过环境变量配置
路径安全校验:拒绝
..路径穿越、强制保持在声明的 OSS 前缀下客户中心:生成代码不含任何客户名、私有 Prompt 或业务规则
成本与性能可控
标签生成默认关闭 thinking,降低 token 开销
Embedding 阶段独立,可按需开启 / 关闭
token 使用量按阶段返回(
label_input_token、label_output_token、*_total_token),便于成本归因