本文介绍如何调用AI搜索开放平台模型进行数据预处理。此方案适用所有需要将原始图片或文本进行处理并实现文本搜图、图搜图及语义搜索的场景。
链路示意
下面以某个从事装卸搬运和仓储业为主的企业案例为例,只有各仓库工人拍摄的货品照片(货品外包装图片,图片中含有货品品牌型号等文本信息)和货品ID,需要以图搜图来快速查询相似货品,即可参照示意图中的链路快速搭建图搜服务。
购买实例
购买实例可参考购买OpenSearch向量检索版实例。
配置实例
新购买的实例,在其详情页中,实例状态为“待配置”,并且会自动部署一个与购买的查询节点和数据节点的个数及规格一致的空实例,之后需要为该实例配置表信息>数据同步>字段配置>索引结构,之后等待索引重建完成即可正常搜索。
1. 表基础信息
表管理点击“添加表",输入表名称,设置数据分片数和数据更新资源数,选择场景模板后点击下一步:
配置说明:
表名称:可自定义
数据分片数:分片数设置时,请填写不超过256的正整数, 用于提升全量构建速度、单次查询性能。(部分存量实例,仍需各索引表分片数保持一致;或至少一个索引表分片数为1,其余索引表分片数一致)
数据更新资源数:数据更新所用资源数,每个索引默认免费提供2个4核8G的更新资源,超出免费额度的资源将产生费用,详情可参考向量检索版计费概述
场景模板:可选择通用模板、向量:图片搜索或向量:文本语义搜索。
2.数据同步
配置数据源,校验通过后,点击下一步。
3.字段配置
待转向量的原始数据勾选需数据预处理,校验字段类型为STRING,然后点击去配置,进入数据预处理配置页。
数据预处理配置说明:
数据类型:场景模板的预设字段数据类型固定,手动增加的字段可选类型(文本或图片)。
数据来源:图片类型需选择来源(base64或OSS),其他类型无此字段。
预处理模板:每种数据类型支持的模板。
服务列表:
类型:
选定预处理模板后,自动出现模板下的服务列表。
可删除服务,但需保障删除后,服务列表满足模板最少服务要求(如OCR+图片向量化模板,需保留至少1个OCR服务,1个图片向量化服务,1个OCR文本向量化服务)。
手动新增服务,当删除服务后才可手动新增,但可选范围在对应预处理模板限制内。
模型:
选择内置模型或AI搜索开放平台模型。
- 说明
选择内置模型可以免费调用,选择AI搜索开放平台模型需付费,计费详情参见计费方式和计费项。
AI搜索开放平台的调用计费单独出账单,与向量版检索版账单分开计费。
选择AI搜索开放平台的模型,您需开通AI搜索开放平台工作空间并创建API Key。
生成字段:
embedding处理类的服务,默认必须生成字段。
ocr服务可选是否生成字段。
同一字段,同类服务目前只支持处理一次。
4.索引结构
配置完成后点击下一步:
5.确认创建
配置完成后,点击确认创建。
6.变更历史
可在变更历史中查看表的创建进度。