创建文档库_云原生数据仓库AnalyticDB(AnalyticDB)-阿里云帮助中心

创建一个文档库（DocumentCollection）用于存储Chunks文本和向量数据。

代码调用

def create_document_collection(account,
                               account_password,
                               namespace,
                               collection,
                               metadata: str = None,
                               full_text_retrieval_fields: str = None,
                               parser: str = None,
                               embedding_model: str = None,
                               metrics: str = None,
                               hnsw_m: int = None,
                               pq_enable: int = None,
                               external_storage: int = None,):
    request = gpdb_20160503_models.CreateDocumentCollectionRequest(
        region_id=ADBPG_INSTANCE_REGION,
        dbinstance_id=ADBPG_INSTANCE_ID,
        manager_account=account,
        manager_account_password=account_password,
        namespace=namespace,
        collection=collection,
        metadata=metadata,
        full_text_retrieval_fields=full_text_retrieval_fields,
        parser=parser,
        embedding_model=embedding_model,
        metrics=metrics,
        hnsw_m=hnsw_m,
        pq_enable=pq_enable,
        external_storage=external_storage
    )
    response = get_client().create_document_collection(request)
    print(f"create_document_collection response code: {response.status_code}, body:{response.body}")


if __name__ == '__main__':
    metadata = '{"title":"text", "page":"int"}'
    full_text_retrieval_fields = "title"
    embedding_model = "m3e-small"
    create_document_collection("testacc", "Test1234", "ns1", "dc1", 
                               metadata=metadata, full_text_retrieval_fields=full_text_retrieval_fields, 
                               embedding_model=embedding_model)


# output: body:
# {
#    "Message":"success",
#    "RequestId":"7BC35B66-5F49-1E79-A153-8D26576C4A3E",
#    "Status":"success"
# }

其中create_document_collection的参数说明如下：

account：AnalyticDB PostgreSQL版实例的数据库初始账号。
account_password：初始账号对应的密码。
namespace: 文档库所在的Namespace名称。
collection：要创建的文档库名称。
metadata：自定义map结构的数据元信息，key为字段名，value为字段类型。
full_text_retrieval_fields：自定义的逗号分隔的全文检索字段，字段必须属于metadata的key。
parser：全文检索参数，分词器，默认zh_cn。详情请参见全文检索介绍。
embedding_model：Embedding模型。详情请参见Embedding模型介绍。
metrics：向量索引参数，索引算法。详情请参见向量索引。
hnsw_m：向量索引参数，HNSW算法中的最大邻居数，范围1～1000。详情请参见向量索引。
pq_enable：向量索引参数，索引是否开启PQ（Product quantization）算法加速。详情请参见向量索引。
external_storage: 向量索引参数，是否使用mmap缓存。详情请参见向量索引。

查看数据库的变更效果

代码调用成功后，可登录DMS，查看创建的表结构（表名为ns1.dc1）。

字段	类型	字段来源	说明

字段	类型	字段来源	说明
id	text	固定字段	主键，表示单条Chunk文本的UUID。
vector	real[]	固定字段	向量数据ARRAY，长度对应指定的Embedding模型的维度。
doc_name	text	固定字段	文档名称。
content	text	固定字段	单条Chunk文本，由文档在Loader和Splitter后得到。
loader_metadata	json	固定字段	文档在Loader解析时对应的元数据。
to_tsvector	TSVECTOR	固定字段	保存全文检索字段，数据来源为full_text_retrieval_fields指定的字段数据。其中content为默认字段，本调用场景表示会从content和title两个数据源做全文检索。
title	text	Metadata定义	用户自定义。
page	int	Metadata定义	用户自定义。

全文检索介绍

为了提高检索的精度，除了向量相似度外，AnalyticDB PostgreSQL版还支持全文检索，并且能和向量相似度检索同时使用达到双路召回效果。

定义全文检索字段

在使用全文检索前，首先需指定哪些字段用于全文检索的数据源，文档库的接口已经默认使用content字段，您还可以指定其它的Metadata自定义字段。

分词

创建文档库时可以指定Parser字段作为分词器，一般场景下，使用默认的中文zh_ch即可，如果有特殊的分词字符要求，请联系阿里云技术支持。

在插入数据时，分词器会将全文检索指定字段的数据按照分词符切分，保存到to_tsvector中，供后续全文检索使用。

Embedding模型介绍

Embedding支持如下模型：

embedding_model	维度	说明

embedding_model	维度	说明
m3e-small	512	来源于moka-ai/m3e-small，仅支持中文，不支持英文。
m3e-base	768	来源于moka-ai/m3e-base，支持中英文。
text2vec	1024	来源于GanymedeNil/text2vec-large-chinese，支持中英文。
text-embedding-v1	1536	来源于百炼的通用文本向量，支持中英文。
text-embedding-v2	1536	text-embedding-v1的升级版。
clip-vit-b-32（多模）	512	开源的多模模型，支持文本、图片。

向量索引

向量索引支持设置如下参数：

参数	说明

参数	说明
metrics	相似度距离度量算法，取值说明如下： l2：使用欧氏距离（平方）函数构建索引，通常用于图片相似度检索场景。 ip：使用反内积距离函数构建索引，通常用于向量归一化之后替代余弦相似度。 cosine：使用余弦距离函数构建索引，通常用于文本相似度检索场景。
hnsw_m	HNSW算法中的最大邻居数。OpenAPI会根据向量维度自动设置不同的值。
pq_enable	是否开启PQ向量降维的功能，取值说明如下： 0：关闭。 1：开启。 PQ向量降维依赖于存量的向量样本数据进行训练，如果数据量小于50w时，不建议设置此参数。
external_storage	是否使用mmap构建HNSW索引，取值说明如下： 0：默认会采用段页式存储构建索引，该模式可以使用PostgreSQL中的shared_buffer做缓存，支持删除和更新等操作。 1：该索引会采用mmap构建索引，该模式不支持删除更新等操作。