DiskANN配置

DISKANN是一种基于磁盘的近似最近邻搜索技术,专为处理超大规模数据集而设计。它采用Vamana图算法,能够在有限内存条件下,利用磁盘存储数据,同时保持高效的向量索引与检索。

DiskANN索引build参数

参数值

类型

说明

proxima.diskann.builder.pq_dimension_scale

Int

pq量化的比例,pq的维度=向量维度/pq_dimension_scale。默认为8。

proxima.diskann.builder.max_degree

Int

diskann图中节点的最大出边数量,数值越大,图越准确,但构图时间将增大。

proxima.diskann.builder.list_size

Int

diskann图构建过程中选则边的候选集大小,数值越大,图越准确,但构图时间将增大。

proxima.diskann.builder.thread_count

Int

构建索引线程数。

DiskANN索引search参数

参数值

类型

说明

proxima.diskann.searcher.list_size

Int

结果候选集大小,数值越大,召回率越高,查询耗时随之变大。

proxima.diskann.searcher.io_limit

Int

单次查询磁盘io限制,最大会进行io_limit次读盘操作。主要影响vamana图游走次数。数值越大召回率越高,io次数越多,查询耗时随之变大。

proxima.diskann.searcher.beam_search_width

Int

io操作并行数量。