各类型向量检索算法对比选型-智能开放搜索 OpenSearch-阿里云

向量检索算法	优势	劣势	场景
量化聚类（Quantized Clustering）	CPU、内存资源占用较低。	召回率较HNSW低。查询速度较HNSW慢。	适用于亿级别数据集，对数据准确性和查询延迟要求不是非常高的场景。
HNSW（Hierarchical Navigable Small World）	召回率高、查询速度快。	CPU、内存资源占用较高。	适用于千万级别数据集，并且对数据准确性和查询延迟有严格要求的场景。
linear	召回率100%。	查询速度慢。 CPU、内存资源占用较上述两种算法多。	适用于万级别的数据。
QGraph（Quantized Graph）	CPU、内存资源占用低，耗时短，查询性能高。	召回率较HNSW低。	适用于海量数据（十亿级以上），对查询耗时和查询性能要求较高，对准确性要求不苛刻的场景。
CagraHnsw	利用 GPU 完成索引构建，速度可达 CPU 构建的十倍以上。	召回率较 HNSW 略低。	适用于海量数据定期更新索引的场景。
CAGRA	GPU算法，性能是CPU的数倍甚至数十倍。	GPU成本高，性价比在低QPS场景下不明显。	适用于高QPS，低耗时要求的场景。
DiskANN 说明仅数据节点规格族为SSD时支持DiskANN算法	索引可以放磁盘，内存占用低。	查询耗时较高，吞吐低。	大数据量（数十亿级），内存有限，延迟不敏感场景。