快速开始

模型简介

文本排序模型 (Text ReRank Model),通常用于语义检索场景,可以简单、有效地提升文本检索的效果。给定查询 (Query) 和一系列候选文本 (documents),会根据与查询的语义相关性从高到低对候选文本进行排序。 gte-rerank是通义实验室研发的多语言文本统一排序模型,面向全球多个主流语种,提供高水平的文本排序服务。

模型中文名

模型英文名

最大token长度

单次请求最大doc数量

单行最大输入字符长度

通用文本排序

text-rerank

4000

500

30000

模型说明:

  • 最大token长度:模型处理的单条(Query+Document)的token数量最大长度,超过最大长度的文本会进行截断

  • 单行最大输入字符长度:SDKAPI能接收的Query和单条Document最大长度

  • 相关性分数范围:0-1之间,一般认为0~0.3,相关性低;0.7~1.0,相关性高

模型概览

模型服务

模型名称

语种支持

应用场景

通用文本排序

gte-rerank

中、英、日、韩、泰语、西、法、葡、德、印尼语、阿拉伯语等50+语种

  • 文本语义检索

  • RAG应用

  • 公开数据评测结果:MTEB中文&英文检索数据集排序结果。BM25召回,NDCG@10指标评测

数据集

CMTEB(中文)

MTEB(英文)

gte-rerank

68.38

67.62

快速开始

前提条件

pip install dashscope

示例代码

以下示例展示了调用文档排序模型API的示例代码。

说明

需要使用您的API-KEY替换示例中的 YOUR_DASHSCOPE_API_KEY,代码才能正常运行。

设置API-KEY

export DASHSCOPE_API_KEY=YOUR_DASHSCOPE_API_KEY
import dashscope
from http import HTTPStatus

def text_rerank(): 
    resp = dashscope.TextReRank.call(
        model=dashscope.TextReRank.Models.gte_rerank,
        query="什么是文本排序模型",
        documents=[
            "文本排序模型广泛用于搜索引擎和推荐系统中,它们根据文本相关性对候选文本进行排序",
            "量子计算是计算科学的一个前沿领域",
            "预训练语言模型的发展给文本排序模型带来了新的进展"
        ],
        top_n=10,
        return_documents=True
    )
    if resp.status_code == HTTPStatus.OK:
        print(resp)
    else:
        print(resp)


if __name__ == '__main__':
    text_rerank() 

python 调用成功后,将会返回如下示例结果:

{
    "status_code": 200, // 200 indicate success otherwise failed.
    "request_id": "9676afe6-fa1a-9895-bf00-b8376333062a", // The request id.
    "code": "", // If failed, the error code.
    "message": "", // If failed, the error message.
    "output": {
         "results": [
            {
                "index": 0,
                "relevance_score": 0.7314485774089865,
                "document": {
                    "text": "文本排序模型广泛用于搜索引擎和推荐系统中,它们根据文本相关性对候选文本进行排序"
                }
            },
            {
                "index": 2,
                "relevance_score": 0.5831720487049298,
                "document": {
                    "text": "预训练语言模型的发展给文本排序模型带来了新的进展"
                }
            },
            {
                "index": 1,
                "relevance_score": 0.04973238644524712,
                "document": {
                    "text": "量子计算是计算科学的一个前沿领域"
                }
            }
        ]
    },
    "usage": {
        "total_tokens": 79
    }
}

了解更多

有关文本排序API的详细调用文档可前往API详情页面进行了解。