DISKANN是一种基于磁盘的近似最近邻搜索技术,专为处理超大规模数据集而设计。它采用Vamana图算法,能够在有限内存条件下,利用磁盘存储数据,同时保持高效的向量索引与检索。
DiskANN索引build参数
参数值 | 类型 | 说明 |
proxima.diskann.builder.pq_dimension_scale | Int | pq量化的比例,pq的维度=向量维度/pq_dimension_scale。默认为8。 |
proxima.diskann.builder.max_degree | Int | diskann图中节点的最大出边数量,数值越大,图越准确,但构图时间将增大。 |
proxima.diskann.builder.list_size | Int | diskann图构建过程中选则边的候选集大小,数值越大,图越准确,但构图时间将增大。 |
proxima.diskann.builder.thread_count | Int | 构建索引线程数。 |
DiskANN索引search参数
参数值 | 类型 | 说明 |
proxima.diskann.searcher.list_size | Int | 结果候选集大小,数值越大,召回率越高,查询耗时随之变大。 |
proxima.diskann.searcher.io_limit | Int | 单次查询磁盘io限制,最大会进行io_limit次读盘操作。主要影响vamana图游走次数。数值越大召回率越高,io次数越多,查询耗时随之变大。 |
proxima.diskann.searcher.beam_search_width | Int | io操作并行数量。 |
该文章对您有帮助吗?