本文介绍以数据湖构建(DLF)为数据源时如何添加表。
前置条件
了解数据湖构建产品简介。
已配置数据湖构建数据目录ID、数据库和数据表,将在配置数据同步中使用。
添加数据湖(DLF)数据源
在实例详情>表管理页,点击添加表:
填写表的基础信息,点击下一步:配置说明:
表名称:可自定义。
数据分片数:分片数设置时,各索引表分片数需保持一致;或至少一个索引表分片数为1,其余索引表分片数一致。
数据更新资源数:数据更新所用资源数,每个索引默认免费提供2个4核8G的更新资源,超出免费额度的资源将产生费用,详情可参考向量检索版计费概述
场景模板:向量检索版内置了3种模板可供用户选择:通用、向量-图片搜索、向量-文本语义模板。
数据同步,配置数据源,校验通过后,点击下一步:
全量数据来源:选择数据湖构建(DLF)。
数据目录ID:访问的目标数据湖构建的数据目录ID。
数据库:访问的目标数据目录下的数据库。
数据表:访问的目标数据库下的数据表。
说明存量实例选择数据湖构建(DLF)类型需升级引擎版本后使用。
当前仅支持Paimon类型数据目录。
Paimon主键表支持增删改查,Paimon Append格式表仅支持写入,不支持更改与删除。
字段配置,配置完成后,点击下一步:
说明必选字段有:主键字段和向量字段,主键字段为int或string类型并且需要勾选主键按钮,向量字段为float类型并且需要勾选向量字段按钮。
向量字段默认为多值的float类型。
当数据中缺少字段或字段为空时,系统将自动补充默认值,数字类型默认补0,STRING类型默认补空字符串,支持自定义默认值。
索引结构配置,配置完成后,点击下一步:此处主要针对向量索引进行配置:
主键字段、向量字段必须填写,命名空间字段非必填,可以为空。
仅支持选择固定的三个字段,不支持新增。
向量维度:根据模型生成的向量按需选择。
距离类型:根据模型生成的向量按需选择,系统支持的距离类型有两种:SquareEuclidean和InnerProduct。
向量索引算法:根据模型生成的向量按需选择,系统支持的向量索引算法有量化聚类(Quantized Clustering)、linear、HNSW(Hierarchical Navigable Small World)
实时索引:表示API的增量数据是否需要实时构建向量索引,默认为true。
其他高级配置,可点击展开进行配置,参数说明可参考向量索引通用配置:
确认创建,点击确认创建后,系统将自动创建配置好的表,可在变更历史中查看创建表进度:
当表状态在使用中时,即可在查询测试页面进行查询测试。
注意事项
DLF的Paimon表有新数据写入时,OpenSearch会基于新数据自动触发实时索引构建,如果通过API手动写入数据,可能引起数据一致性问题,请谨慎操作。