多模数据接入
通过AnalyticDB for MySQL的多模数据接入功能,您可以将文档、图片、视频、音频等多模态文件上传到AnalyticDB for MySQL湖存储,系统自动完成文件发现、模型推理、语义理解、向量生成和数据入库的全流程处理。处理结果统一写入多模表,支持通过 SQL 进行向量、全文、标量的混合检索。
功能介绍
通过AnalyticDB for MySQL多模数据接入功能,您可以实现以下目标:
多模处理pipeline全程自动化:实现“文件上传 → 自动发现 → 模型推理 → 语义理解/向量生成 → 数据入库”的全流程自动化。您只需上传文件到AnalyticDB for MySQL湖存储,即可获得语义标签和向量表示。
统一多模向量存储与检索:处理结果统一写入AnalyticDB for MySQL的多模表,包括文件元信息(如路径、大小、类型等)和多模语义理解的文本摘要、向量字段。后续可通过SQL进行向量、全文、标量的混合查询,实现"关键词+语义"的混合检索能力。
主要处理流程如下:
步骤 | 说明 |
上传文件 | 将文件上传到 AnalyticDB 湖存储(托管 OSS)的指定目录。 |
多模数据接入 | 创建多模数据接入作业后,系统自动执行以下处理:
|
数据检索 | 通过 AnalyticDB 的 SQL 进行向量、全文、标量检索。 |
前提条件
AnalyticDB for MySQL集群的产品系列为企业版、基础版及湖仓版。
AnalyticDB for MySQL集群的内核版本为 3.2.6及以上。
说明请在云原生数据仓库AnalyticDB MySQL控制台集群信息页面,配置信息区域,查看和升级内核版本。
已创建 Ray 资源组。Ray资源组需开启 ENI 网络,用于多模数据接入作业向目标表写入数据,否则网络无法连通。您可以在创建资源组时开启,或修改资源组开启 ENI 网络。
已在AnalyticDB for MySQL推理服务中部署多模理解模型和Embedding模型。
请提交工单联系技术支持开通多模数据接入功能。
操作步骤
登录云原生数据仓库AnalyticDB MySQL控制台,在左上角选择集群所在地域。在左侧导航栏,单击集群列表,然后单击目标集群ID。
在左侧导航栏,单击。
单击创建作业,配置以下参数。
参数
说明
描述
输入多模数据接入作业的描述信息。
数据源
选择ADB湖存储(托管OSS)。
路径
选择AnalyticDB 湖存储上的一个目录,该目录用于上传多模文件(文档、图片、视频、音频等)。如果没有湖存储,可以在选择目录时,单击创建按钮创建一个湖存储bucket。
作业类型
选择作业的处理类型。支持以下类型:
多模理解和向量化(通用):对文档、视频、图片、音频进行大模型理解与向量化,并将结果写入目标表。
关键帧抽取(视频):根据视频的画面变化,抽取 PPT 页关键帧,并写入目标表。
分段理解(视频):基于视频分段信息切分视频,将各段的模型理解结果及向量写入目标表。
目标表
输入目标库名和表名。
重要目标表根据作业类型自动创建,创建作业时目标表不能已存在。
Ray资源组
选择已创建的 Ray 资源组。
说明本列表仅展示已开启 ENI 网络的 Ray 资源组。
多模理解模型
选择AnalyticDB for MySQL推理服务上已部署的多模理解模型。
Embedding模型
选择AnalyticDB for MySQL推理服务上已部署的 Embedding 模型。
用户指令模板
选择内置的指令模板,您可以基于该模板进行调整。
用户指令
输入指令内容,帮助大模型更好地理解和处理文件内容。
白名单
勾选后,会自动将AnalyticDB for MySQL集群所在交换机网段加入AnalyticDB for MySQL的访问白名单,用于向目标表写入数据。
单击启动作业。
作业启动后将持续监听数据源配置的路径,当有新文件上传时,自动进行处理并将结果写入目标表。