文档

通用文本向量模型

更新时间:
一键部署

模型简介

通用文本向量,是通义实验室基于LLM底座的多语言文本统一向量模型,面向全球多个主流语种,提供高水准的向量服务,帮助开发者将文本数据快速转换为高质量的向量数据。

模型中文名

模型英文名

向量维度

单次请求文本最大行数

单行最大输入字符长度

支持语种

通用文本向量

text-embedding-v1

1536

25

2048

中文、英语、西班牙语、法语、葡萄牙语、印尼语。

text-embedding-async-v1

1536

100000

2048

中文、英语、西班牙语、法语、葡萄牙语、印尼语。

text-embedding-v2

1536

25

2048

中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。

text-embedding-async-v2

1536

100000

2048

中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。

text-embedding-v2是text-embedding-v1模型的升级版本, 更新内容主要包括:

  • 语种扩充:text-embedding-v2模型对比text-embedding-v1模型扩展日语、韩语、德语、俄罗斯语文本向量化能力。

  • 效果提升:预训练模型底座和SFT策略优化提升embedding模型整体效果,公开数据评测结果。

MTEB

MTEB(Retrieval task)

CMTEB

CMTEB (Retrieval task)

text-embedding-v1

58.30

45.47

59.84

56.59

text-embedding-v2

60.13

49.49

62.17

62.78

  • 归一化处理:text-embedding-v2对输出向量结果默认归一化处理。

模型概览

模型服务

模型名称

模型简介

应用场景

通用文本向量

text-embedding-v1

支持多语种输出,包含中文、英语、西班牙语、法语、葡萄牙语、印尼语。

  • 多语言输出;

  • 自然语言翻译;

text-embedding-v2

支持多语种输出,包含中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。

text-embedding-async-v1

支持多种语种输出,包含中文、英语、西班牙语、法语、葡萄牙语、印尼语。

text-embedding-async-v2

支持多种语种输出,包含中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。

计费和限流信息

为了保证用户调用模型的公平性,通义千问对于普通用户设置了基础限流。限流是基于模型维度的,并且和调用用户的阿里云主账号相关联,按照该账号下所有API-KEY调用该模型的总和计算限流。如果超出调用限制,用户的API请求将会因为限流控制而失败,用户需要等待一段时间待满足限流条件后方能再次调用。

模型名称

计费单价

免费额度

基础限流

text-embedding-v1

0.0007元/1000 tokens

50万tokens

领取方式:开通阿里云百炼服务后,自动发放;

有效期:180天

以下条件任何一个超出都会触发限流:

  • 调用频次 ≤ 30 QPS,每秒钟不超过30次API调用。

  • Token消耗 ≤ 600,000 TPM,每分钟消耗的Token数目不超过600,000。

text-embedding-v2

text-embedding-async-v1

2000万tokens

领取方式:开通阿里云百炼服务后,自动发放;

有效期:180天

以下条件任何一个超出都会触发提交作业限流:

  • 提交作业的调用频次 ≤ 1 QPS,每秒钟最多提交一个作业。

  • 当前用户在系统通用文本向量异步作业排队中+运行中的作业数量不超过50个。

另外,为了避免大量突发的作业占据太多资源,限制并发的作业数为3个,即任意时间,单个用户最多只有3个通用文本向量的异步作业在并发运行,其他的作业只能在队列中等待。

text-embedding-async-v2

如果您熟悉编程语言,推荐您使用SDK或API调用通义千问模型,实现灵活定制和开发。SDK或API调用请参考开发指南

说明

超出基础限流配额申请

将以下信息补充完整并发送到邮箱:modelstudio@service.aliyun.com,会有专员进行评估。

阿里云主账号UID:

需调整的模型名称:

每分钟请求数:

每分钟使用量(token):

联系电话:

申请原因(需要尽可能的详细):

  • 本页导读 (1)
文档反馈