使用pgvector插件实现向量数据库的基础操作-云原生数据库 PolarDB-阿里云

本文介绍向量数据库基础使用方法。

说明

PGVector向量插件存在内核小版本限制，如未满足内核小版本要求，请升级内核小版本。

创建插件和向量表

使用高权限账号在目标数据库创建插件。

说明

PGVector插件的作用域是Database级别，如果需要在集群的多个Database中使用向量能力，请为每个Database分别创建向量插件。

CREATE EXTENSION IF NOT EXISTS vector;

创建插件成功后，您可执行以下语句创建向量表。

创建一个具有3个维度的向量表。

CREATE TABLE items (id bigserial PRIMARY KEY, embedding vector(3));

插入向量。

INSERT INTO items (embedding) VALUES ('[1,2,3]'), ('[4,5,6]');

更新向量。

UPDATE items_3 SET embedding = '[1,2,3]' WHERE id = 1;

获取与某个向量最近邻。

SELECT * FROM items ORDER BY embedding <-> '[3,1,2]' LIMIT 5;

支持的距离函数包括：

示例

说明

在使用索引时，建议结合ORDER BY和LIMIT。

获取与某一行的5个最近邻并排序。

SELECT * FROM items WHERE id != 1 ORDER BY embedding <-> (SELECT embedding FROM items WHERE id = 1) LIMIT 5;

获取在特定距离范围内的行。

SELECT * FROM items WHERE embedding <-> '[3,1,2]' < 5;

获取距离。

SELECT embedding <-> '[3,1,2]' AS distance FROM items;

获取余弦距离，此处使用1-余弦距离值。

SELECT 1 - (embedding <=> '[3,1,2]') AS cosine_similarity FROM items;

按组平均向量。

SELECT id, AVG(embedding) FROM items GROUP BY id;