多模态数据处理与同步(邀测中)

多模态数据处理与同步功能可从指定数据源读取多种模态的原始数据(例如,文本、图片),调用AI搜索开放平台的模型能力实现多模态信息的提取与向量化,并将处理后的数据同步更新至ES Serverless应用。

背景信息

AI搜索开放平台是智能开放搜索OpenSearch的子产品,围绕智能搜索及RAG场景,将AI搜索链路中用到的算法服务以组件化形式提供,内置文档解析、文档切片、文本向量化、查询分析、召回、排序、效果评估以及LLM模型服务,开发者可根据自身情况灵活选择组件服务进行搜索业务开发。

计费说明

使用AI模型服务将由AI搜索开放平台收费,并按实际模型调用量计费,不使用则不收费。

说明

费用产生后,您可登录费用与成本系统查看消费明细

使用限制

  • 仅华东2(上海)地域支持使用多模态数据处理与同步功能。

  • 目前仅支持同步并处理云数据库RDS的数据。

前提条件

步骤一:创建同步任务

  1. 进入应用详情页。

    1. 登录Elasticsearch Serverless控制台,在顶部菜单栏切换至目标地域。

    2. 在左侧导航栏单击应用管理,单击已创建的应用名称,进入应用详情页。

  2. 在左侧导航栏单击数据迁移与同步

  3. 使用AI搜索开放平台-多模态数据处理与同步服务区域单击立即使用

  4. 单击创建,创建数据处理与同步任务。

步骤二:配置基础信息

基础信息配置页签,您可配置同步任务的名称及数据来源信息。image

参数

描述

任务名称

自定义的同步任务名称。名称必须在应用内唯一。

API Key

在下拉列表选择所需的API Key。

调用AI模型相关的APISDK时,可通过API Key进行身份认证,以确保调用操作安全可靠。

数据源

目前仅支持RDS。

实例 ID

RDS实例的ID。可登录RDS管理控制台,在实例列表获取。

数据库名

RDS数据库名称。可登录RDS管理控制台,进入实例详情页,在数据库管理页面获取。

用户名及密码

RDS数据库登录账号及密码。可登录RDS管理控制台,进入实例详情页,在账号管理页面获取。

表名

RDS数据表名称。

步骤三:加工数据

数据加工页签,选择需要同步的原始字段,并指定相应加工规则(例如,需要对哪些字段中的图片或文本进行向量化处理),生成结果字段。

image

  1. 筛选原始字段。

    原始字段区域,可查看源表中待同步的字段。默认对所有源表字段进行同步,您也可按需删除无需同步至ES的字段。

  2. 自定义加工规则。

    数据加工配置区域,单击创建加工规则,即可自定义数据处理规则。规则生成后,您也可按需进行编辑或删除。

    说明
    • 支持对同一原始字段制定多个数据加工规则。

    • 编辑或删除目标数据加工规则后,则原先生成的结果字段将进行相应变更或删除。

    image

    参数

    描述

    规则名称

    自定义的规则名称,名称必须在当前同步任务内唯一。

    数据类型

    选择需要进行向量化处理的数据类型,支持文本图片

    数据加工模版

    选择处理数据所使用的向量化方法。

    • 数据类型文本,支持选择:

      • 稠密向量化:将文本转化为低维向量,适用于语义搜索、问答、推荐等场景。

      • 稀疏向量化:将文本转化为高维向量,适用于短文本、关键词搜索。

    • 数据类型图片,仅支持选择图片向量化,将图片转换为数值向量,提取图像特征用于检索或分类。

    原始字段

    选择需要基于当前规则处理的字段。支持选择多个字段。

    图片格式

    所选字段中待处理的图片格式,即符合该格式的图片系统才会进行处理。支持选择:

    • uri:图片存储在外部,字段中为公网可访问的HTTPOSS地址。

    • binary:图片以二进制形式存储在BLOB字段中。

    • base64-string:图片以BASE64字符串形式存储在TEXT字段中。

    • base64-bytes:图片以BASE64字符串形式存储在BLOB字段中。

    说明

    仅当数据类型选择图片时,需配置该参数。

    加工流程

    选择对相应数据进行向量化处理所需的多模态向量AI模型。选择后,可查看相应模型的描述,以及基于该模型生成的结果字段。

    结果字段的命名格式为:

    • 文本稠密向量化:规则名称_原始字段名称_multi-text-embedding,例如,test2_hobby_text-embedding

    • 文本稀疏向量化:规则名称_原始字段名称_multi-text-sparse-embedding,例如,test2_name_text-sparse-embedding

    • 图片向量化:规则名称_原始字段名称_multi-modal-embedding,例如,test2_age_multi-modal-embedding

  3. 生成结果字段。

    数据加工规则创建后,平台将按照该规则生成相应结果字段。您可在生成字段区域,查看生成的字段名称,以及字段生成过程介绍。image

步骤四:配置字段映射

字段映射配置页签,可配置待同步字段(包含原始字段生成的结果字段)与ES Serverless应用中目标索引字段的映射关系,配置完成后,当同步任务启动,待同步字段的数据将会自动同步至相应目标索引字段中。

image

  1. 选择目标索引。

    目标索引中的字段数量必须大于等于待同步字段数量,并且每个目标索引字段只能配置一次映射关系(即目标索引字段只能与一个待同步字段相对应)。

    若当前应用还未创建索引,或已有索引不满足业务需要,则您可勾选待同步的字段后,单击一键创建索引,系统会根据您选择的字段进行自动推理并生成索引字段。

    说明

    索引推理结果面板中,选中指定代码后单击右键,即可复制该代码至本地进行编辑、使用。

    image

  2. 配置字段映射关系。

    选择索引后,系统会根据同名原则为待同步字段自动匹配目标索引字段,您也可按需调整相应映射关系。

    说明

    同一待同步字段可添加多次,并支持配置不同的去向索引字段,但每个去向索引字段仅支持配置一次映射关系(即仅能对应一个待同步字段)。

    • 待同步字段:同步的原始数据。默认展示所有源表字段及生成的结果字段,您可按需添加或删除所需字段。

    • 去向索引字段:用于接收相应待同步字段的数据。

    • 主键:目前仅支持配置单个主键。

  3. 当所有待同步字段均匹配上目标索引字段后,可单击下一步,执行后续配置。

步骤五:配置同步策略

数据同步配置中,输入创建ES Serverless应用时设置的密码,按照界面指引完成同步配置。

image

后续步骤

同步任务配置完成后将自动启动运行,您可在同步任务列表查看任务的运行状态。待数据同步完成后,可进入Kibana,查看已同步的数据详情。

说明

多模态数据处理与同步任务采取全量同步+增量同步模式,因此同步任务会持续为运行中状态,不会自动停止。

image

管理同步任务

在同步任务列表,可查看同步任务的基础信息、详细信息,也可按需执行任务的启动、停止、复制、删除等操作。

image

  • 任务状态:包含待启动启动中运行中运行失败。若任务出现运行失败状态,您可根据界面指引查看相关日志,定位异常。

    说明

    运行中状态的任务也可能存在异常,异常任务可根据界面日志来定位,具体请以实际界面为准。

  • 复制创建:基于已有任务快速复制一个相同配置的新任务,任务创建后可按需调整配置,便于任务批量部署。

  • 删除任务:若任务无需使用,可单击image图标 > 删除,按照界面指引删除任务。

    重要

    任务删除后不可恢复,请谨慎操作。