使用多元索引时,可以在创建时指定索引预排序和在查询时指定排序方式,在获取返回结果时可以使用limit和offset或者使用token进行翻页。

索引预排序(IndexSort)

多元索引默认会按照索引中设置的IndexSort进行排序,IndexSort决定了多元索引查询时默认的返回顺序,默认的IndexSort为主键排序,在创建索引时可以自定义预排序方式。如果未自定义IndexSort,即按照主键顺序返回。

说明 含有Nested类型的索引不支持IndexSort,没有预排序。

查询时指定排序方式

只有enable_sort_and_agg设置为True的字段才能进行排序。

在每次查询时,可以指定排序方式,多元索引支持如下四种排序方式(Sorter)。您也可以使用多个Sorter,实现先按照某种方式排序,再按照另一种方式排序的需求。

  • ScoreSort
    按照查询结果的相关性(BM25算法)分数进行排序,适用于有相关性的场景,例如全文检索等。
    说明 如果需要按照相关性打分进行排序,必须手动设置ScoreSort,否则会按照索引设置的IndexSort进行排序。
    sort字段设置:
    sort = Sort(
        sorters=[ScoreSort(sort_order=SortOrder.DESC)]
    )
    client.search(
        table_name, index_name, SearchQuery(query, sort=sort, limit=100, get_total_count=True), ColumnsToGet(return_type=ColumnReturnType.ALL)
    )
  • PrimaryKeySort

    按照主键进行排序。

    sort字段设置:
    sort = Sort(
        sorters=[PrimaryKeySort(sort_order=SortOrder.DESC)]
    )
    client.search(
        table_name, index_name, SearchQuery(query, sort=sort, limit=100, get_total_count=True), ColumnsToGet(return_type=ColumnReturnType.ALL)
    ) = PrimaryKeySort(sort_order=SortOrder.DESC)
  • FieldSort

    按照某列的值进行排序。

    sort字段设置:
    sort = Sort(
        sorters=[FieldSort('l', SortOrder.ASC)]
    )
    
    client.search(
        table_name, index_name, SearchQuery(query, sort=sort, limit=100, get_total_count=True), ColumnsToGet(return_type=ColumnReturnType.ALL)
    )
    Nested类型的字段排序:
    sort = Sort(
        sorters=[
            FieldSort(
                'n.nl', 
                sort_order=SortOrder.ASC, 
                nested_filter=NestedFilter('n', RangeQuery('n.nl', range_from=150, range_to=200))
            )
        ]
    )
    client.search(
        table_name, index_name, SearchQuery(query, sort=sort, limit=100, get_total_count=True), ColumnsToGet(return_type=ColumnReturnType.ALL)
    )

    先按照某列的值进行排序,再按照另一列的值进行排序。

    sort字段设置:
    sort = Sort(
        sorters=[
            FieldSort('a', SortOrder.ASC),
            FieldSort('b', SortOrder.ASC)
        ]
    )
    
    client.search(
        table_name, index_name, SearchQuery(query, sort=sort, limit=100, get_total_count=True), ColumnsToGet(return_type=ColumnReturnType.ALL)
    )
  • GeoDistanceSort

    根据地理点距离进行排序。

    sort字段设置:
    sort = Sort(
        sorters=[GeoDistanceSort('g', ['32.5,116.5', '32.0,116.0'], sort_order=SortOrder.DESC, sort_mode=SortMode.MAX)]
    )
    
    client.search(
        table_name, index_name, SearchQuery(query, sort=sort, limit=100, get_total_count=True), ColumnsToGet(return_type=ColumnReturnType.ALL)
    )    

翻页方式

在获取返回结果时,可以使用limit和offset或者使用token进行翻页。

  • 使用limit和offset

    当需要获取的总条数小于10000行时,可以通过limit和offset进行翻页,limit+offset<=10000。

    query = RangeQuery('k', 'key100', 'key500', include_lower=False, include_upper=False)
    rows, next_token, total_count, is_all_succeed = client.search(
        table_name, index_name, 
        SearchQuery(query, offset=100, limit=100, get_total_count=True), 
        ColumnsToGet(return_type=ColumnReturnType.ALL)
    )      
  • 使用token进行翻页

    当符合查询条件的数据未读取完时,服务端会返回next_token,此时可以使用next_token继续读取后面的数据。

    使用token翻页后的排序方式和上一次请求的一致,无论是系统默认使用IndexSort还是自定义排序,因此设置了token不能再设置Sort。另外使用token后不能设置offset,只能依次往后读取,即无法跳页。

    query = MatchAllQuery()
    all_rows = []
    next_token = None
    # first round
    rows, next_token, total_count, is_all_succeed = client.search(table_name, index_name,
            SearchQuery(query, next_token=next_token, limit=100, get_total_count=True),
            columns_to_get=ColumnsToGet(['k', 't', 'g', 'ka', 'la'], ColumnReturnType.SPECIFIED))
    all_rows.extend(rows)
    # loop
    while next_token:
        rows, next_token, total_count, is_all_succeed = client.search(table_name, index_name,
            SearchQuery(query, next_token=next_token, sort=None, limit=100, get_total_count=True),
            columns_to_get=ColumnsToGet(['k', 't', 'g', 'ka', 'la'], ColumnReturnType.SPECIFIED))
        all_rows.extend(rows)
    
    print 'Total rows:', len(all_rows)