本文为您介绍Proxima CE在运行过程中所使用到的参数说明,包括可选参数和必选参数。
必选参数
参数名称 | 说明 |
doc_table | 输入底库表(MaxCompute table),需要用户准备,作为检索候选集合。 重要 创建的表名不能使用半角点号 |
doc_table_partition | 底库表的MaxCompute分区。 |
query_table | 输入查询表(MaxCompute table),需要用户准备,作为检索集合。 重要 创建的表名不能使用英文点号 |
query_table_partition | 查询表的MaxCompute分区。 |
output_table | 输出表,不需要用户创建,指定表名即可,用于存储检索结果。 |
output_table_partition | 输出表的MaxCompute分区。 |
data_type | 指定输入数据表的数据类型,目前支持 |
dimension | 向量特征的维度, |
可选参数
参数名称 | 说明 | 默认值 |
h (–help) | 使用帮助。 | 无 |
topk | 召回相似的结果个数,可以指定多个值 | 200 |
pk_type | 指明输入表的 | string |
vector_separator | 向量的分隔符,可以指定波浪号之外的其他分隔符,支持空格,空格为 | ~ |
binary_to_int | 是否使用INT32来表示BINARY数据,该参数只对BINARY类型的数据有效,其它参数不支持, | false |
job_mode | 目前支持的模式为如下组合:
| train:build:seek |
clean_build_volume | 是否删除索引,build job 完成索引构建之后,会在MaxCompute的volume上写索引,seek job去加载该索引,执行完seek job之后,默认删除索引。 说明 当任务失败时,如果指定为 true,索引也会被清理。 | true |
algo_model | 索引构建方法,目前基于proxima2.x内核主要主持如下六种索引构建方法
| hnsw |
builder_params | 索引构建的参数,默认为空。该参数与 | 无 |
searcher_params | 索引查询的参数,默认为空。该参数与 | 无 |
converter | 指定索引构建的converter名称。Index Converter是Proxima2.x对特征向量进行转换的模块,例如对特征进行降维half float转换,int8量化等。可独立使用,也可作为检索流程中一部分,详情参考Index Converter。 | 无 |
converter_params | 指定converter参数,参数以单行JSON字符串提供,双引号不需要转义,中间不能有空格。例如指定 | 无 |
distance_method | 特征距离计算公式,目前支持:
| squared_euclidean |
measure_params | 指定距离(-distance_method)参数,参数以单行JSON字符串提供,双引号不需要转义,中间不能有空格。例如指定 | 无 |
column_num | 构建索引的列数,默认为0。
| 0 |
row_num | 检索查询的行数,默认为0。
| 0 |
category_threshold | 在多类目检索场景下,指定为大类目检索的阈值。当某个类目下的doc数超过该阈值时判断该类目走大类目检索,否则走小类目检索,其中小类目检索默认采用线性检索方式,且多个小类目数据合并在一起检索。 | 1000000 |
category_col_num | 按类目查询时,小类目(doc数小于100万)构建索引的列数,具体参考 | 0 |
category_row_num | 按类目查询时,小类目(doc数小于100万)查询索引的行数,具体参考 | 0 |
category_thread_num | 按类目查询时,设置处理大类目(doc数大于100万)任务的并发度(线程池大小)。 | 10 |
query_multi_label | 单个query是否有多个category,若设置 | false |
threshold_score | 检索结果分数过滤阈值。对于当召回的 doc 的 | 无 |
tunnel_endpoint | 设置MaxCompute的tunnel endpoint值,默认为空。防止跨网络访问数据表时download session建立失败,详情可参考MaxCompute Tunnel Endpoint问题。 | 无 |
memory_load | 指定seek阶段索引加载方式,默认为true,纯内存加载,当集群内存资源紧张时可视情况设为false。 | true |
sharding_mode | 索引分片方式,目前支持 | hash |
kmeans_resource_name | 主要作用 | kmeans_resource_name |
kmeans_sample_ratio | 主要作用 | 0.05 |
kmeans_seek_ratio | 主要作用 | 0.1 |
kmeans_iter_num | 主要作用 | 30 |
kmeans_cluster_num | 主要作用 | 1000 |
kmeans_init_center_method | 主要作用 | "" |
kmeans_worker_num | 主要作用 | 0 |
mapper_split_size | 暴露 | 256 |
odps_task_priority | Proxima CE任务优先级选项,通过设置Proxima CE内部所有MaxCompute任务(sql、MR、Graph等任务)的优先级来完成,取值[0-9],数字越小优先级越高,默认为-1跟随MaxCompute基线优先级。 | -1 |
oss_access_id | 阿里云账号或RAM用户的AccessKey ID。您可以进入AccessKey管理页面获取AccessKey ID。 | 无 |
oss_access_key | AccessKey ID对应的AccessKey Secret。 您可以进入AccessKey管理页面获取AccessKey Secret。 | 无 |
oss_endpoint | MaxCompute服务的连接地址。 您需要根据创建MaxCompute项目时选择的地域以及网络连接方式配置Endpoint。各地域及网络对应的Endpoint值,请参见Endpoint。 | 无 |
oss_bucket | OSS存储空间名称,即Bucket名称。查看存储空间名称操作,请参见列举存储空间。 | 无 |