模型简介
通用文本向量,是通义实验室基于LLM底座的多语言文本统一向量模型,面向全球多个主流语种,提供高水准的向量服务,帮助开发者将文本数据快速转换为高质量的向量数据。
模型中文名 | 模型英文名 | 向量维度 | 单次请求文本最大行数 | 单行最大处理token长度 | 支持语种 |
通用文本向量 | text-embedding-v1 | 1536 | 25 | 2048 | 中文、英语、西班牙语、法语、葡萄牙语、印尼语。 |
text-embedding-async-v1 | 1536 | 100000 | 2048 | 中文、英语、西班牙语、法语、葡萄牙语、印尼语。 | |
text-embedding-v2 | 1536 | 25 | 2048 | 中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。 | |
text-embedding-async-v2 | 1536 | 100000 | 2048 | 中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。 | |
text-embedding-v3 | 1024 768 512 | 6 | 8192 | 中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语等50+语种 |
text-embedding-v2是text-embedding-v1模型的升级版本, 更新内容主要包括:
语种扩充:“text-embedding-v2”模型对比“text-embedding-v1”模型扩展了日语、韩语、德语、俄罗斯语文本向量化的能力。
效果提升:预训练模型底座和SFT策略优化提升embedding模型整体效果,公开数据评测结果。
text-embedding-v3模型是text-embedding-v2模型的升级版本,更新内容主要包括:
语种扩充:text-embedding-v3模型对比text-embedding-v2模型扩展了意大利语、波兰语、越南语、泰语等语种,支持语种数量增加到50+。
输入长度扩展:支持编码的输入长度从2048扩展至8192, 对text-embedding-v3, 8192指文本输入的最大token长度
可变输出连续向量维度: 相比text-embedding-v2模型的固定1536向量维度, text-embedding-v3支持用户自定义连续向量的维度, 目前可以选择512,768和1024维度;同时为了进一步节省下游任务的使用成本,text-embedding-v3模型在不衰减效果的前提下将最大的向量维度降低至1024维。
不再区分Query/Document类型:text-embedding-v3模型在不降低模型效果的前提下不再区分输入文本的类型,text_type参数无需指定输入的文本是Query还是Document类型。
Sparse向量支持: text-embedding-v3模型同时支持连续向量表示(dense vector)和离散向量表示模型(sparse vector), 用户可以在接口参数中指定输出连续向量、离散向量或者同时输出。
效果提升:预训练模型底座和SFT策略优化提升embedding模型整体效果,公开数据评测结果。
模型 | MTEB | MTEB(Retrieval task) | CMTEB | CMTEB (Retrieval task) |
text-embedding-v1 | 58.30 | 45.47 | 59.84 | 56.59 |
text-embedding-v2 | 60.13 | 49.49 | 62.17 | 62.78 |
text-embedding-v3 | 63.39 | 55.41 | 68.92 | 73.23 |
text-embedding-v3模型不同维度效果对比
模型 | 模型维度 | MTEB | MTEB(Retrieval task) | CMTEB | CMTEB (Retrieval task) |
text-embedding-v3 | 1024 | 63.39 | 55.41 | 68.92 | 73.23 |
text-embedding-v3 | 768 | 62.43 | 54.74 | 67.90 | 72.29 |
text-embedding-v3 | 512 | 62.11 | 54.30 | 66.81 | 71.88 |
归一化处理:text-embedding-v2/v3对输出向量结果默认归一化处理。
模型概览
模型服务 | 模型名称 | 模型简介 | 应用场景 |
通用文本向量 | text-embedding-v1 | 支持多语种输出,包含中文、英语、西班牙语、法语、葡萄牙语、印尼语。 |
|
text-embedding-v2 | 支持多语种输出,包含中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。 | ||
text-embedding-v3 | 支持多语种输出,包含中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。 | ||
text-embedding-async-v1 | 支持多种语种输出,包含中文、英语、西班牙语、法语、葡萄牙语、印尼语。 | ||
text-embedding-async-v2 | 支持多种语种输出,包含中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。 |