文档

创建多元索引

更新时间:

使用CreateSearchIndex接口在数据表上创建一个多元索引。一个数据表支持创建多个多元索引。创建多元索引时,您需要将要查询的字段添加到多元索引中,您还可以配置多元索引路由键、预排序等高级选项。

前提条件

  • 已初始化Client。具体操作,请参见初始化OTSClient

  • 已创建数据表,且数据表的最大版本数(max_version)必须为1,数据生命周期(time_to_live)必须满足如下条件中的任意一个。具体操作,请参见创建数据表

    • 数据表的数据生命周期为-1(数据永不过期)。

    • 数据表的数据生命周期不为-1时,数据表为禁止更新状态(即是否允许更新)。

注意事项

  • 创建多元索引时,多元索引中字段的数据类型必须与数据表中字段的数据类型相匹配。更多信息,请参见数据类型映射

  • 如果要修改多元索引为指定数据生命周期(即取值不为-1),则您必须禁用数据表的UpdateRow更新写入功能。同时多元索引的TTL值必须小于或等于数据表的TTL值。更多信息,请参见生命周期管理

参数

创建多元索引时,需要指定数据表名称(table_name)、多元索引名称(index_name)和索引的结构信息(schema),其中schema包含field_schemas(Index的所有字段的设置)、index_setting(索引设置)和index_sort(索引预排序设置)。详细参数说明请参见下表。

组成

说明

table_name

数据表名称。

index_name

多元索引名称。

field_schemas

field_schema的列表,每个field_schema包含如下内容:

  • field_name(必选):创建多元索引的字段名,即列名,类型为String。

    多元索引中的字段可以是主键列或者属性列。

  • field_type(必选):字段类型,类型为FieldType.XXX。更多信息,请参见数据类型映射

  • is_array(可选):是否为数组,类型为Boolean。

    如果设置为true,则表示该列是一个数组,在写入时,必须按照JSON数组格式写入,例如["a","b","c"]。

    由于Nested类型是一个数组,当field_type为Nested类型时,无需设置此参数。

  • index(可选):是否开启索引,类型为Boolean。

    默认为true,表示对该列构建倒排索引或者空间索引;如果设置为false,则不会对该列构建索引。

  • analyzer(可选):分词器类型。当字段类型为Text时,可以设置此参数;如果不设置,则默认分词器类型为单字分词。关于分词的更多信息,请参见分词

  • enable_sort_and_agg(可选):是否开启排序与统计聚合功能,类型为Boolean。

    只有enable_sort_and_agg设置为true的字段才能进行排序。关于排序的更多信息,请参见排序和翻页

    重要

    Nested类型的字段不支持开启排序与统计聚合功能,但是Nested类型内部的子列支持开启排序与统计聚合功能。

  • store(可选):是否在多元索引中附加存储该字段的值,类型为Boolean。

    开启后,可以直接从多元索引中读取该字段的值,而不必反查数据表,可用于查询性能优化。

  • sub_field_schemas(可选):当字段类型为Nested类型时,需要通过此参数设置嵌套文档中子列的索引类型,类型为field_schema的列表。

  • is_virtual_field(可选):该字段是否为虚拟列,类型为Boolean类型,默认值为false。只有使用虚拟列时,才需要设置此参数。关于虚拟列的更多信息,请参见虚拟列

  • source_field_name(可选):数据表中的字段名称,类型为String。

    重要

    当设置is_virtual_field为true时,必须设置此参数。

  • date_formats(可选):日期的格式,类型为String。更多信息,请参见日期数据类型

    重要

    当字段类型为Date时,必须设置此参数。

  • vector_options(可选):向量字段类型的属性参数。当字段类型为Vector时,必须设置此参数。包括如下内容:

    • data_type:向量数据类型。当前仅支持float32。如果有其他类型需求,请提交工单联系我们。

    • dimension:向量维度。关于维度限制说明请参见多元索引限制

    • metric_type:向量之间距离度量的算法,支持欧氏距离(euclidean)、余弦相似度(cosine)、点积(dot_product)。

      • 欧氏距离(euclidean):多维空间中两个向量之间的直线距离。出于性能考虑,表格存储中的欧氏距离算法未进行最后的平方根计算。欧氏距离的评分越大表示两个向量的相似度越大。

      • 余弦相似度(cosine):向量空间中两个向量间夹角的余弦值。余弦相似度的评分越高表示两个向量的相似度越大。常用于文本数据的相似度计算。

      • 点积(dot_product):维度相同的两个向量的对应坐标相乘,然后将结果相加。点积的评分越高标识两个向量的相似度越大。

      关于如何选用距离度量算法的更多信息,请参见附录:距离度量算法说明

index_setting

索引设置,包含routing_fields设置。

routing_fields(可选):自定义路由字段。可以选择部分主键列作为路由字段,在进行索引数据写入时,会根据路由字段的值计算索引数据的分布位置,路由字段的值相同的记录会被索引到相同的数据分区中。

index_sort

索引预排序设置,包含sorters设置。如果不设置,则默认按照主键排序。

说明

含有Nested类型的索引不支持indexSort,没有预排序。

sorters(必选):索引的预排序方式,支持按照主键排序和字段值排序。关于排序的更多信息,请参见排序和翻页

  • PrimaryKeySort表示按照主键排序,包含如下设置:

    sort_order:排序的顺序,可按升序或者降序排序,默认为升序(SortOrder.ASC)。

  • FieldSort表示按照字段值排序,包含如下设置:

    只有建立索引且开启排序与统计聚合功能的字段才能进行预排序。

    • field_name:排序的字段名。

    • sort_order:排序的顺序,可按照升序或者降序排序,默认为升序(SortOrder.ASC)。

    • sort_mode:当字段存在多个值时的排序方式。

示例

创建多元索引时设置分词

以下示例用于创建多元索引时设置分词。该多元索引包括k(Keyword类型)、t(Text类型)、g(Geopoint类型)、ka(数组Keyword类型)、la(数组Long类型)和n(Nested类型)六个字段。其中n字段包括nk(Keyword类型)、nl(Long类型)和nt(Text类型)三个子字段。

def create_search_index(client):
    # Keyword类型的字段,建立索引并开启统计聚合功能。
    field_a = FieldSchema('k', FieldType.KEYWORD, index=True, enable_sort_and_agg=True, store=True)
    # Text类型的字段,建立索引并使用单字分词。
    field_b = FieldSchema('t', FieldType.TEXT, index=True, store=True, analyzer=AnalyzerType.SINGLEWORD)
    # Text类型的字段,建立索引并使用模糊分词。
    #field_b = FieldSchema('t', FieldType.TEXT, index=True, store=True, analyzer=AnalyzerType.FUZZY,analyzer_parameter=FuzzyAnalyzerParameter(1, 6))
    # Text类型的字段,建立索引并使用自定义分隔符半角逗号(,)进行分词。
    #field_b = FieldSchema('t', FieldType.TEXT, index=True, store=True, analyzer=AnalyzerType.SPLIT, analyzer_parameter = SplitAnalyzerParameter(","))
    # Geopoint类型的字段,建立索引。
    field_c = FieldSchema('g', FieldType.GEOPOINT, index=True, store=True)
    # 数组Kerword类型字段,建立索引。
    field_d = FieldSchema('ka', FieldType.KEYWORD, index=True, is_array=True, store=True)
    # 数组Long类型字段,建立索引。
    field_e = FieldSchema('la', FieldType.LONG, index=True, is_array=True, store=True)

    # Nested类型字段,包括nk(Keyword类型)、nl(Long类型)和nt(Text类型)三个子字段。
    field_n = FieldSchema('n', FieldType.NESTED, sub_field_schemas=[
        FieldSchema('nk', FieldType.KEYWORD, index=True, store=True),
        FieldSchema('nl', FieldType.LONG, index=True, store=True),
        FieldSchema('nt', FieldType.TEXT, index=True, store=True),
    ])

    fields = [field_a, field_b, field_c, field_d, field_e, field_n]

    index_setting = IndexSetting(routing_fields=['PK1']) 
    index_sort = None #当多元索引中存在Nested类型字段时,不能设置索引预排序.
    #index_sort = Sort(sorters=[PrimaryKeySort(SortOrder.ASC)])
    index_meta = SearchIndexMeta(fields, index_setting=index_setting, index_sort=index_sort)
    client.create_search_index('<TABLE_NAME>', '<SEARCH_INDEX_NAME>', index_meta)

创建多元索引时设置向量字段

以下示例用于创建一个多元索引。该多元索引包括col_keyword(Keyword类型)、col_long(Long类型)和col_vector(Vector类型)三列。其中向量字段的距离度量的算法为点积。

def create_search_index(client):
    index_meta = SearchIndexMeta([
        FieldSchema('col_keyword', FieldType.KEYWORD, index=True, enable_sort_and_agg=True, store=True),  # 字符串类型
        FieldSchema('col_long', FieldType.LONG, index=True, store=True),  # 数字类型
        FieldSchema("col_vector", FieldType.VECTOR,  # 向量类型
                    vector_options=VectorOptions(
                        data_type=VectorDataType.VD_FLOAT_32,
                        dimension=4,  # 向量维度为4,相似度算法为: 点积
                        metric_type=VectorMetricType.VM_DOT_PRODUCT
                    )),

    ])
    client.create_search_index(table_name, index_name, index_meta)

常见问题

相关文档

  • 创建多元索引后,您可以选择合适的查询类型进行多维度数据查询。多元索引查询类型包括精确查询多词精确查询全匹配查询匹配查询短语匹配查询前缀查询范围查询通配符查询地理位置查询多条件组合查询向量检索嵌套类型查询列存在性查询

    当通过Search接口查询数据时,如果要对结果集进行排序或者翻页,您可以使用排序和翻页功能来实现。具体操作,请参见排序和翻页

  • 当通过Search接口查询数据时,如果要按照某一列对结果集做折叠,使对应类型的数据在结果展示中只出现一次,您可以使用折叠(去重)功能来实现。具体操作,请参见折叠(去重)

  • 如果希望清理多元索引中的历史数据或者希望延长数据保存时间,您可以修改多元索引的数据生命周期。具体操作,请参见生命周期管理

  • 如果要进行数据分析,例如求最值、求和、统计行数等,您可以使用Search接口的统计聚合功能或者SQL查询来实现。具体操作,请参见统计聚合SQL查询

  • 如果要快速导出数据,而不关心整个结果集的顺序时,您可以使用ParallelScan接口和ComputeSplits接口实现多并发导出数据。具体操作,请参见并发导出数据

  • 如果要在多元索引中新增、更新或者删除索引列,您可以使用动态修改schema功能实现。具体操作,请参见动态修改schema

  • 如果要获取某个数据表关联的所有多元索引的列表信息,您可以使用列出多元索引列表功能实现。具体操作,请参见列出多元索引列表

  • 如果要查询多元索引的描述信息,包括多元索引的字段信息和索引配置等,您可以使用查询多元索引描述信息功能实现。具体操作,请参见查询多元索引描述信息

  • 如果不再需要使用多元索引,您可以删除多元索引。具体操作,请参见删除多元索引