表格存储Python SDK创建多元索引-表格存储(Tablestore)-阿里云帮助中心

使用CreateSearchIndex方法在数据表上创建一个多元索引。一个数据表支持创建多个多元索引。创建多元索引时，您需要将要查询的字段添加到多元索引中，您还可以配置多元索引路由键、预排序等高级选项。

前提条件

完成初始化Tablestore Client。
完成创建数据表，并且数据表同时满足以下条件：
- 最大版本数必须为1。
- 数据生命周期为-1或者数据表为禁止更新状态。

注意事项

创建多元索引时，多元索引中字段的数据类型必须与数据表中字段的数据类型相匹配。
如果要修改多元索引为指定数据生命周期（即取值不为-1），则您必须禁用数据表的UpdateRow更新写入功能。同时多元索引的TTL值必须小于或等于数据表的TTL值。更多信息，请参见生命周期管理。

参数

创建多元索引时，需要指定数据表名称（table_name）、多元索引名称（index_name）和索引的结构信息（schema），其中schema包含field_schemas（Index的所有字段的设置）、index_setting（索引设置）和index_sort（索引预排序设置）。详细参数说明请参见下表。

组成	说明
table_name	数据表名称。
index_name	多元索引名称。
field_schemas	field_schema的列表，每个field_schema包含如下内容： field_name（必选）：创建多元索引的字段名，即列名，类型为String。多元索引中的字段可以是主键列或者属性列。 field_type（必选）：字段的数据类型，类型为FieldType.XXX。 is_array（可选）：是否为数组，类型为Boolean。如果设置为True，则表示该列是一个数组，在写入时，必须按照JSON数组格式写入，例如["a","b","c"]。由于Nested类型是一个数组，当field_type为Nested类型时，无需设置此参数。 index（可选）：是否开启索引，类型为Boolean。默认为True，表示对该列构建倒排索引或者空间索引；如果设置为False，则不会对该列构建索引。 analyzer（可选）：分词器类型。当字段类型为Text时，可以设置此参数；如果不设置，则默认分词器类型为单字分词。 enable_sort_and_agg（可选）：是否开启排序与统计聚合功能，类型为Boolean。只有enable_sort_and_agg设置为True的字段才能进行排序。重要 Nested类型的字段不支持开启排序与统计聚合功能，但是Nested类型内部的子列支持开启排序与统计聚合功能。 sub_field_schemas（可选）：当字段类型为Nested类型时，需要通过此参数设置嵌套文档中子列的索引类型，类型为field_schema的列表。 is_virtual_field（可选）：该字段是否为虚拟列，类型为Boolean类型，默认值为False。如果要使用虚拟列，请设置此参数为True。 source_field_name（可选）：数据表中的字段名称，类型为String。重要当设置is_virtual_field为True时，必须设置此参数。 date_formats（可选）：日期的格式，类型为String。更多信息，请参见日期时间类型。重要当字段类型为Date时，必须设置此参数。 enable_highlighting（可选）：是否开启摘要与高亮功能，类型为Boolean。默认值为False，表示不开启摘要与高亮。如果要使用摘要与高亮，请设置此参数为True。仅Text类型字段支持摘要与高亮功能。重要表格存储Python SDK从6.0.0版本开始支持此功能。 vector_options（可选）：向量字段类型的属性参数。当字段类型为Vector时，必须设置此参数。包括如下内容： data_type：向量数据类型。当前仅支持float32。如果有其他类型需求，请提交工单联系我们。 dimension：向量维度。向量类型字段支持的最大维度（Dimension）为4096。 metric_type：向量之间距离度量的算法，支持欧氏距离（euclidean）、余弦相似度（cosine）、点积（dot_product）。欧氏距离（euclidean）：多维空间中两个向量之间的直线距离。出于性能考虑，表格存储中的欧氏距离算法未进行最后的平方根计算。欧氏距离的评分越大表示两个向量的相似度越大。余弦相似度（cosine）：向量空间中两个向量间夹角的余弦值。余弦相似度的评分越高表示两个向量的相似度越大。常用于文本数据的相似度计算。点积（dot_product）：维度相同的两个向量的对应坐标相乘，然后将结果相加。点积的评分越高表示两个向量的相似度越大。选用距离度量算法的说明请参见距离度量算法说明。 json_type（可选）：JSON的索引类型，支持OBJECT和NESTED。当字段类型为 JSON类型时，必须设置此参数。
index_setting	索引设置，包含routing_fields设置。 routing_fields（可选）：自定义路由字段。可以选择部分主键列作为路由字段，一般情况下只需要设置一个。如果设置多个路由键，系统会将多个路由键的值拼接成一个值。在进行索引数据写入时，系统会根据路由字段的值计算索引数据的分布位置，路由字段的值相同的记录会被索引到相同的数据分区中。
index_sort	索引预排序设置，包含sorters设置。如果不设置，则默认按照主键排序。说明含有Nested类型的索引不支持indexSort，没有预排序。 sorters（必选）：索引的预排序方式，支持按照主键排序和字段值排序。关于排序的更多信息，请参见排序和翻页。 PrimaryKeySort表示按照主键排序，包含如下设置： sort_order：排序的顺序，可按升序或者降序排序，默认为升序（SortOrder.ASC）。 FieldSort表示按照字段值排序，包含如下设置：只有建立索引且开启排序与统计聚合功能的字段才能进行预排序。 field_name：排序的字段名。 sort_order：排序的顺序，可按照升序或者降序排序，默认为升序（SortOrder.ASC）。 sort_mode：当字段存在多个值时的排序方式。

示例

创建多元索引时设置分词

以下示例用于在创建多元索引时设置分词。该多元索引包括k（Keyword类型）、t（Text类型）、g（Geopoint类型）、ka（数组Keyword类型）、la（数组Long类型）和n（Nested类型）六个字段。其中n字段包括nk（Keyword类型）、nl（Long类型）和nt（Text类型）三个子字段。

def create_search_index(client):
    # Keyword类型的字段，建立索引并开启统计聚合功能。
    field_a = FieldSchema('k', FieldType.KEYWORD, index=True, enable_sort_and_agg=True)
    # Text类型的字段，建立索引并使用单字分词。
    field_b = FieldSchema('t', FieldType.TEXT, index=True, analyzer=AnalyzerType.SINGLEWORD)
    # Text类型的字段，建立索引并使用模糊分词。
    #field_b = FieldSchema('t', FieldType.TEXT, index=True, analyzer=AnalyzerType.FUZZY,analyzer_parameter=FuzzyAnalyzerParameter(1, 6))
    # Text类型的字段，建立索引并使用自定义分隔符半角逗号（,）进行分词。
    #field_b = FieldSchema('t', FieldType.TEXT, index=True, analyzer=AnalyzerType.SPLIT, analyzer_parameter = SplitAnalyzerParameter(","))
    # Geopoint类型的字段，建立索引。
    field_c = FieldSchema('g', FieldType.GEOPOINT, index=True)
    # 数组Kerword类型字段，建立索引。
    field_d = FieldSchema('ka', FieldType.KEYWORD, index=True, is_array=True)
    # 数组Long类型字段，建立索引。
    field_e = FieldSchema('la', FieldType.LONG, index=True, is_array=True)

    # Nested类型字段，包括nk（Keyword类型）、nl（Long类型）和nt（Text类型）三个子字段。
    field_n = FieldSchema('n', FieldType.NESTED, sub_field_schemas=[
        FieldSchema('nk', FieldType.KEYWORD, index=True),
        FieldSchema('nl', FieldType.LONG, index=True),
        FieldSchema('nt', FieldType.TEXT, index=True),
    ])

    fields = [field_a, field_b, field_c, field_d, field_e, field_n]

    index_setting = IndexSetting(routing_fields=['PK1']) 
    index_sort = None #当多元索引中存在Nested类型字段时，不能设置索引预排序.
    #index_sort = Sort(sorters=[PrimaryKeySort(SortOrder.ASC)])
    index_meta = SearchIndexMeta(fields, index_setting=index_setting, index_sort=index_sort)
    client.create_search_index('<TABLE_NAME>', '<SEARCH_INDEX_NAME>', index_meta)

创建多元索引时设置向量字段

以下示例用于创建一个多元索引。该多元索引包括col_keyword（Keyword类型）、col_long（Long类型）和col_vector（Vector类型）三列。其中向量字段的距离度量的算法为点积。

def create_search_index(client):
    index_meta = SearchIndexMeta([
        FieldSchema('col_keyword', FieldType.KEYWORD, index=True, enable_sort_and_agg=True),  # 字符串类型
        FieldSchema('col_long', FieldType.LONG, index=True),  # 数字类型
        FieldSchema("col_vector", FieldType.VECTOR,  # 向量类型
                    vector_options=VectorOptions(
                        data_type=VectorDataType.VD_FLOAT_32,
                        dimension=4,  # 向量维度为4，相似度算法为: 点积
                        metric_type=VectorMetricType.VM_DOT_PRODUCT
                    )),

    ])
    client.create_search_index(table_name, index_name, index_meta)

创建多元索引时开启摘要与高亮

以下示例用于在创建多元索引时开启摘要与高亮。该多元索引包括k（Keyword类型）、t（Text类型）和n（Nested类型）三个字段，其中n字段包括nk（Keyword类型）、nl（Long类型）和nt（Text类型）三个子字段。同时为t字段和n字段中的nt子字段开启摘要与高亮功能。

def create_search_index0905(client):
    # Keyword类型的字段，建立索引并开启统计聚合功能。
    field_a = FieldSchema('k', FieldType.KEYWORD, index=True, enable_sort_and_agg=True)
    # Text类型的字段，建立索引并使用单字分词，同时为字段开启摘要与高亮功能。
    field_b = FieldSchema('t', FieldType.TEXT, index=True, analyzer=AnalyzerType.SINGLEWORD,
                        enable_highlighting=True)

    # Nested类型字段，包括nk（Keyword类型）、nl（Long类型）和nt（Text类型）三个子字段，同时为nt子列开启摘要与高亮功能。
    field_n = FieldSchema('n', FieldType.NESTED, sub_field_schemas=[
        FieldSchema('nk', FieldType.KEYWORD, index=True),
        FieldSchema('nl', FieldType.LONG, index=True),
        FieldSchema('nt', FieldType.TEXT, index=True, enable_highlighting=True),
    ])

    fields = [field_a, field_b, field_n]

    index_setting = IndexSetting(routing_fields=['id'])
    index_sort = None  # 当多元索引中存在Nested类型字段时，不能设置索引预排序.
    # index_sort = Sort(sorters=[PrimaryKeySort(SortOrder.ASC)])
    index_meta = SearchIndexMeta(fields, index_setting=index_setting, index_sort=index_sort)
    client.create_search_index('pythontest', 'pythontest_0905', index_meta)

创建多元索引