模型简介
文本排序模型 (Text ReRank Model),通常用于语义检索场景,可以简单、有效地提升文本检索的效果。给定查询 (Query) 和一系列候选文本 (documents),会根据与查询的语义相关性从高到低对候选文本进行排序。 gte-rerank是通义实验室研发的多语言文本统一排序模型,面向全球多个主流语种,提供高水平的文本排序服务。
模型中文名 | 模型英文名 | 最大token长度 | 单次请求最大doc数量 | 单行最大输入字符长度 |
通用文本排序 | text-rerank | 4000 | 500 | 30000 |
模型说明:
最大token长度:模型处理的单条(Query+Document)的token数量最大长度,超过最大长度的文本会进行截断
单行最大输入字符长度:SDK和API能接收的Query和单条Document最大长度
相关性分数范围:0-1之间,一般认为0~0.3,相关性低;0.7~1.0,相关性高
模型概览
模型服务 | 模型名称 | 语种支持 | 应用场景 |
通用文本排序 | gte-rerank | 中、英、日、韩、泰语、西、法、葡、德、印尼语、阿拉伯语等50+语种 |
|
公开数据评测结果:MTEB中文&英文检索数据集排序结果。BM25召回,NDCG@10指标评测
数据集 | CMTEB(中文) | MTEB(英文) |
gte-rerank | 68.38 | 67.62 |
快速开始
前提条件
pip install dashscope
示例代码
以下示例展示了调用文档排序模型API的示例代码。
说明
需要使用您的API-KEY替换示例中的 YOUR_DASHSCOPE_API_KEY,代码才能正常运行。
设置API-KEY
export DASHSCOPE_API_KEY=YOUR_DASHSCOPE_API_KEY
import dashscope
from http import HTTPStatus
def text_rerank():
resp = dashscope.TextReRank.call(
model=dashscope.TextReRank.Models.gte_rerank,
query="什么是文本排序模型",
documents=[
"文本排序模型广泛用于搜索引擎和推荐系统中,它们根据文本相关性对候选文本进行排序",
"量子计算是计算科学的一个前沿领域",
"预训练语言模型的发展给文本排序模型带来了新的进展"
],
top_n=10,
return_documents=True
)
if resp.status_code == HTTPStatus.OK:
print(resp)
else:
print(resp)
if __name__ == '__main__':
text_rerank()
python 调用成功后,将会返回如下示例结果:
{
"status_code": 200, // 200 indicate success otherwise failed.
"request_id": "9676afe6-fa1a-9895-bf00-b8376333062a", // The request id.
"code": "", // If failed, the error code.
"message": "", // If failed, the error message.
"output": {
"results": [
{
"index": 0,
"relevance_score": 0.7314485774089865,
"document": {
"text": "文本排序模型广泛用于搜索引擎和推荐系统中,它们根据文本相关性对候选文本进行排序"
}
},
{
"index": 2,
"relevance_score": 0.5831720487049298,
"document": {
"text": "预训练语言模型的发展给文本排序模型带来了新的进展"
}
},
{
"index": 1,
"relevance_score": 0.04973238644524712,
"document": {
"text": "量子计算是计算科学的一个前沿领域"
}
}
]
},
"usage": {
"total_tokens": 79
}
}
了解更多
有关文本排序API的详细调用文档可前往API详情页面进行了解。
文档内容是否对您有帮助?