模型介绍

模型简介

通用文本向量,是通义实验室基于LLM底座的多语言文本统一向量模型,面向全球多个主流语种,提供高水准的向量服务,帮助开发者将文本数据快速转换为高质量的向量数据。

模型中文名

模型英文名

向量维度

单次请求文本最大行数

单行最大处理token长度

支持语种

通用文本向量

text-embedding-v1

1536

25

2048

中文、英语、西班牙语、法语、葡萄牙语、印尼语。

text-embedding-async-v1

1536

100000

2048

中文、英语、西班牙语、法语、葡萄牙语、印尼语。

text-embedding-v2

1536

25

2048

中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。

text-embedding-async-v2

1536

100000

2048

中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。

text-embedding-v3

1024

768

512

6

8192

中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语等50+语种

text-embedding-v2text-embedding-v1模型的升级版本, 更新内容主要包括:

  • 语种扩充:“text-embedding-v2”模型对比“text-embedding-v1”模型扩展了日语、韩语、德语、俄罗斯语文本向量化的能力。

  • 效果提升:预训练模型底座和SFT策略优化提升embedding模型整体效果,公开数据评测结果。

说明

text-embedding-v3模型是text-embedding-v2模型的升级版本,更新内容主要包括:

  • 语种扩充text-embedding-v3模型对比text-embedding-v2模型扩展了意大利语、波兰语、越南语、泰语等语种,支持语种数量增加到50+。

  • 输入长度扩展:支持编码的输入长度从2048扩展至8192, 对text-embedding-v3, 8192指文本输入的最大token长度

  • 可变输出连续向量维度: 相比text-embedding-v2模型的固定1536向量维度, text-embedding-v3支持用户自定义连续向量的维度, 目前可以选择512,7681024维度;同时为了进一步节省下游任务的使用成本,text-embedding-v3模型在不衰减效果的前提下将最大的向量维度降低至1024维。

  • 不再区分Query/Document类型:text-embedding-v3模型在不降低模型效果的前提下不再区分输入文本的类型,text_type参数无需指定输入的文本是Query还是Document类型。

  • Sparse向量支持: text-embedding-v3模型同时支持连续向量表示(dense vector)和离散向量表示模型(sparse vector), 用户可以在接口参数中指定输出连续向量、离散向量或者同时输出。

  • 效果提升:预训练模型底座和SFT策略优化提升embedding模型整体效果,公开数据评测结果。

模型

MTEB

MTEB(Retrieval task)

CMTEB

CMTEB (Retrieval task)

text-embedding-v1

58.30

45.47

59.84

56.59

text-embedding-v2

60.13

49.49

62.17

62.78

text-embedding-v3

63.39

55.41

68.92

73.23

  • text-embedding-v3模型不同维度效果对比

模型

模型维度

MTEB

MTEB(Retrieval task)

CMTEB

CMTEB (Retrieval task)

text-embedding-v3

1024

63.39

55.41

68.92

73.23

text-embedding-v3

768

62.43

54.74

67.90

72.29

text-embedding-v3

512

62.11

54.30

66.81

71.88

  • 归一化处理:text-embedding-v2/v3对输出向量结果默认归一化处理。

模型概览

模型服务

模型名称

模型简介

应用场景

通用文本向量

text-embedding-v1

支持多语种输出,包含中文、英语、西班牙语、法语、葡萄牙语、印尼语。

  • 文本搜索

  • RAG

text-embedding-v2

支持多语种输出,包含中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。

text-embedding-v3

支持多语种输出,包含中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。

text-embedding-async-v1

支持多种语种输出,包含中文、英语、西班牙语、法语、葡萄牙语、印尼语。

text-embedding-async-v2

支持多种语种输出,包含中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。