使用Python SDK为多元索引查询设置排序与翻页-表格存储-阿里云

使用多元索引查询数据时，通过预先定义排序方式或者查询时指定排序方式，您可以按照指定排列方式获取到返回数据。当返回结果行数较多时，通过使用跳转翻页或者连续翻页可以快速定位到所需数据。

使用场景

分类	使用方式	功能	使用场景
排序	创建时指定排序方式	索引预排序	多元索引默认按照设置的索引预排序（IndexSort）方式进行排序，用于确定数据的默认返回顺序。
	查询时指定排序方式	ScoreSort （分数排序）	按照查询结果的相关性（BM25算法）分数进行排序，适用于有相关性的场景，例如全文检索等。
		PrimaryKeySort（主键排序）	按照主键进行排序，适用于按照事物标识排序的场景。
		FieldSort（字段值排序）	按照字段值进行排序，适用于电商、社交媒资等按照事物属性排序的场景，例如商品销量、浏览量等。
		GeoDistanceSort（地理位置排序）	根据地理点距离进行排序，适用于地图、物流等按照距离排序事物的场景，例如某个位置周边餐厅按距离排序等。
翻页	查询时指定翻页方式	使用limit和offser翻页	返回结果行数小于100000行时用于跳转翻页。
翻页	查询时指定翻页方式	使用token翻页	用于连续翻页，默认只能向后翻页。由于在一次查询的翻页过程中token长期有效，您可以通过缓存并使用之前的token实现向前翻页。

索引预排序

多元索引默认按照设置的索引预排序（IndexSort）方式进行排序，使用多元索引查询数据时，IndexSort决定了数据的默认返回顺序。

在创建多元索引时，您可以自定义IndexSort，如果未自定义IndexSort，则IndexSort默认为主键排序。

重要

索引预排序只支持PrimaryKeySort （按照主键排序）和FieldSort（按照字段值排序）两种方式。
含有Nested类型字段的多元索引不支持索引预排序。
创建多元索引后，如果要修改多元索引的IndexSort，您可以使用动态修改schema功能实现。具体操作，请参见动态修改schema。

查询时排序

只有enable_sort_and_agg设置为True的字段才能进行排序。

在每次查询时，可以指定排序方式，多元索引支持如下四种排序方式（Sorter）。您也可以使用多个Sorter，实现先按照某种方式排序，再按照另一种方式排序的需求。

ScoreSort

按照查询结果的相关性（BM25算法）分数进行排序，适用于有相关性的场景，例如全文检索等。

重要

如果需要按照相关性打分进行排序，必须手动设置ScoreSort，否则会按照索引设置的IndexSort进行排序。

sort = Sort(
    sorters=[ScoreSort(sort_order=SortOrder.DESC)]
)
client.search(
    '<TABLE_NAME>', '<SEARCH_INDEX_NAME>', SearchQuery(query, sort=sort, limit=100, get_total_count=True), ColumnsToGet(return_type=ColumnReturnType.ALL)
)

PrimaryKeySort

按照主键进行排序。

sort = Sort(
    sorters=[PrimaryKeySort(sort_order=SortOrder.DESC)]
)
client.search(
    '<TABLE_NAME>', '<SEARCH_INDEX_NAME>', SearchQuery(query, sort=sort, limit=100, get_total_count=True), ColumnsToGet(return_type=ColumnReturnType.ALL)
) = PrimaryKeySort(sort_order=SortOrder.DESC)

FieldSort

按照列值进行排序。

单列排序

按照某列的值进行排序。

sort = Sort(
    sorters=[FieldSort('a', SortOrder.ASC)]
)

client.search(
    '<TABLE_NAME>', '<SEARCH_INDEX_NAME>', SearchQuery(query, sort=sort, limit=100, get_total_count=True), ColumnsToGet(return_type=ColumnReturnType.ALL)
)

多列排序

先按照某列的值进行排序，再按照另一列的值进行排序。

sort = Sort(
    sorters=[
        FieldSort('a', SortOrder.ASC),
        FieldSort('b', SortOrder.ASC)
    ]
)

client.search(
    '<TABLE_NAME>', '<SEARCH_INDEX_NAME>', SearchQuery(query, sort=sort, limit=100, get_total_count=True), ColumnsToGet(return_type=ColumnReturnType.ALL)
)

GeoDistanceSort

根据地理点距离进行排序。

sort = Sort(
    sorters=[GeoDistanceSort('g', ['32.5,116.5', '32.0,116.0'], sort_order=SortOrder.DESC, sort_mode=SortMode.MAX)]
)

client.search(
    '<TABLE_NAME>', '<SEARCH_INDEX_NAME>', SearchQuery(query, sort=sort, limit=100, get_total_count=True), ColumnsToGet(return_type=ColumnReturnType.ALL)
)

翻页方式

在获取返回结果时，可以使用limit和offset或者使用token进行翻页。

使用limit和offset翻页

当需要获取的返回结果行数小于100000行时，可以使用limit和offset进行翻页，即limit+offset<=100000，其中limit的最大值为100。

说明

如果需要提高limit的上限，请参见如何将多元索引 Search 接口查询数据的 limit 提高到 1000。

如果使用此方式进行翻页时未设置limit和offset，则limit的默认值为10，offset的默认值为0。

query = RangeQuery('k', 'key100', 'key500', include_lower=False, include_upper=False)
search_response = client.search(
    '<TABLE_NAME>', '<SEARCH_INDEX_NAME>', 
    SearchQuery(query, offset=100, limit=100, get_total_count=True), 
    ColumnsToGet(return_type=ColumnReturnType.ALL)
)  
print('request_id : %s' % search_response.request_id)
print('is_all_succeed : %s' % search_response.is_all_succeed)
print('total_count : %s' % search_response.total_count)
print('rows : %s' % search_response.rows)

使用token翻页

由于使用token进行翻页时翻页深度无限制，当需要进行深度翻页时，推荐使用token进行翻页。

当符合查询条件的数据未读取完时，服务端会返回next_token，此时可以使用next_token继续读取后面的数据。

使用token进行翻页时默认只能向后翻页。由于在一次查询的翻页过程中token长期有效，您可以通过缓存并使用之前的token实现向前翻页。

使用token翻页后的排序方式和上一次请求的一致，无论是系统默认使用IndexSort还是自定义排序，因此设置了token不能再设置Sort。另外使用token后不能设置offset，只能依次往后读取，即无法跳页。

重要

由于含有Nested类型字段的多元索引不支持索引预排序，如果使用含有Nested类型字段的多元索引查询数据且需要翻页，则必须在查询条件中指定数据返回的排序方式，否则当符合查询条件的数据未读取完时，服务端不会返回next_token。

query = MatchAllQuery()
all_rows = []
next_token = None
# first round
search_response = client.search('<TABLE_NAME>', '<SEARCH_INDEX_NAME>',
        SearchQuery(query, next_token=next_token, limit=100, get_total_count=True),
        columns_to_get=ColumnsToGet(['k', 't', 'g', 'ka', 'la'], ColumnReturnType.SPECIFIED))
all_rows.extend(search_response.rows)
# loop
while search_response.next_token:
    search_response = client.search('<TABLE_NAME>', '<SEARCH_INDEX_NAME>',
        SearchQuery(query, next_token=search_response.next_token, sort=None, limit=100, get_total_count=True),
        columns_to_get=ColumnsToGet(['k', 't', 'g', 'ka', 'la'], ColumnReturnType.SPECIFIED))
    all_rows.extend(search_response.rows)

print('Total rows:%d' % len(all_rows))

排序和翻页