安装Proxima CE包

更新时间:2025-03-27 07:01:23

在使用向量计算功能之前,您需要安装Proxima CE包,本文为您介绍Proxima CE的环境准备、安装包获取方式、上传及输入数据准备等过程。

前提条件

请确保已完成环境准备

获取Proxima CE安装包

请单击Proxima CE下载安装包。

Proxima CE安装包主要包含Proxima CE可执行JAR包,您能够以添加MaxCompute资源的方式将其上传到MaxCompute Project,然后调用可执行JAR包运行Proxima CE任务。

将安装包上传为MaxCompute资源

您可以通过MaxCompute客户端(odpscmd)或者DataWorks将上述已下载的安装包上传至MaxCompute Project。本文以DataWorks为例为您介绍如何上传并发布资源。odpscmd上传资源的方式可以参考添加资源

  1. DataWorks数据开发页面,通过可视化方式将安装包上传为JAR资源。

    说明

    通过DataWorks可视化方式创建或上传的资源:

    • 若资源未在MaxCompute(ODPS)客户端上传过,则需勾选上传为ODPS资源,若资源已上传至MaxCompute(ODPS)客户端,则需取消勾选上传为ODPS资源,否则上传均会报错。

    • 若上传时勾选了上传为ODPS资源,则上传后在DataWorksMaxCompute中均会存储该资源。后续若通过命令行删除MaxCompute中的资源,DataWorks中的资源仍然存在且正常显示。

    • 资源名称无需与上传的文件名称保持一致。

    image

  2. 提交并发布资源。

    资源创建完成后,您需在资源编辑页面,单击工具栏中的提交图标,提交资源至调度开发服务器端。

    说明

    若生产任务需使用该资源,则还需将该资源发布至生产环境。详情请参见发布任务

准备输入表

在运行之前,您需要准备如下两个输入表:

  • doc表:底库数据表。

  • query表:用户查询表。

建表命令

--创建doc表
CREATE TABLE doc_table_float_smoke(pk STRING,vector STRING <,category BIGINT>) PARTITIONED BY (pt STRING);

--创建query表
CREATE TABLE query_table_float_smoke(pk STRING,vector STRING <,category BIGINT>) PARTITIONED BY (pt STRING);

输入表格式要求

  • 表名

    • 输入表的表名不能包含tmp_字符串,否则会导致任务运行失败。

    • 输入表的表名和分区值的字符长度不能超过64,否则会导致任务运行失败。

  • 字段

    说明

    输入表中需包含下述固定字段,且字段名称必须完全一致。

    固定字段

    字段说明

    字段数据类型

    固定字段

    字段说明

    字段数据类型

    pk

    查询时的pk值字段(主键)。

    默认为STRING类型。

    • 对于pk列:其具体的值可以是数值或者字符串(比如:字符串类型1.nid,2.nid,3.nid,...INT64数值类型123,456,789,...)。

    • 对于pk列:如果存的都是INT64数值,列的类型可以指定为BIGINT类型,同时若指定启动参数-pk_typeINT64,则能够提升性能。

    vector

    向量字段。

    默认为STRING类型。

    category

    多类目的类目字段。

    仅多类目检索时需要此字段。

    默认为BIGINT类型。

    pt

    分区字段。

    默认为STRING类型。

输入表示例

  • doc

    pk

    vector

    pt

    pk

    vector

    pt

    id1

    0~1~1~5

    20190322

    id2

    0~1~1~2

    20190322

    id3

    3~2~1~1

    20190322

    ...

    ...

    ...

  • query

    pk

    vector

    pt

    pk

    vector

    pt

    id8

    0~1~1~5

    20190322

    id9

    0~1~1~2

    20190322

    id10

    3~2~1~1

    20190322

    ...

    ...

    ...

下一步:使用向量检索功能

检索场景

关键特性

指导文档

检索场景

关键特性

指导文档

基础向量检索

支持百万级别TopK查询。

基础向量检索

多类目检索

支持多类目场景,包括querydoc属于多个类目的场景以及单个query属于多个类目的场景。

多类目检索

聚类分片

支持聚类分片索引构建方式,该方式能够减小计算量和加速后续索引查询过程。

聚类分片

内积和余弦距离

支持内积检索。

内积和余弦距离

量化使用

支持量化器使用,一般配置量化器可提升性能,减少索引大小,召回视情况有所损失。

量化使用

使用向量检索后会自动生成一张输出表,存储在MaxCompute表中,您无需创建,在运行Proxima CE代码的-output_table参数后面指定表名即可使用。生成的输出表格式请参考下文的输出表格式说明

输出表格式说明

运行向量检索后会自动生成一张输出表,并存储在MaxCompute表中,生成的输出表格式如下。

  • 表名:即您在运行Proxima CE的代码中所指定的输出表的表名。

    • 输出表的表名不能使用半角点号.,其为MaxCompute的特殊字符,会导致MaxCompute表解析失败。

    • 输出表的表名不能包含tmp_字符串,会导致任务运行失败。

    • 输出表名和分区名的字符长度不能超过64,否则会导致任务运行失败。

  • 字段

    固定字段

    字段说明

    字段的数据类型

    固定字段

    字段说明

    字段的数据类型

    pk

    query表中每个query对应的pk值。

    默认为STRING类型。

    • pk列的具体值可以是数值或者字符串(比如字符串类型1.nid,2.nid,3.nid,...INT64数值类型123,456,789,...)。

    • 如果pk列存储的均为INT64数值,可以将列类型指定为BIGINT类型,同时若指定启动参数-pk_typeINT64,可提升性能。

    knn_result

    query召回对应的doc表中的pk值。

    默认为STRING类型。

    score

    召回的doc对应的相似度分数。

    默认为STRING类型。Proxima CE中统一按照相似度大小降序排序。

    说明

    分数对于inner_product/mips_squared_euclidean两种距离算法在Proxima2内核里是距离越大越相似,其他距离算法是距离越小越相似,但Proxima CE中进行了统一处理,按照相似度大小降序排序,即:

    • 对于inner_product/mips_squared_euclidean距离,按照score值降序排序;

    • 对于其他距离,按照score值升序排序,与Proxima2内核保持一致。

    category

    多类目的类目字段。

    仅多类目检索时需要此字段。

    默认为BIGINT类型。

    pt

    分区字段。

    默认为STRING类型。

输出表示例

pk

knn_result

score

pt

pk

knn_result

score

pt

id8

id1

0.1

20190322

id8

id2

0.2

20190322

id9

id1

0.1

20190322

id9

id3

0.3

20190322

...

...

...

...

  • 本页导读 (1)
  • 前提条件
  • 获取Proxima CE安装包
  • 将安装包上传为MaxCompute资源
  • 准备输入表
  • 建表命令
  • 输入表格式要求
  • 输入表示例
  • 下一步:使用向量检索功能
  • 输出表格式说明
  • 输出表示例
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等