模型介绍_大模型服务平台百炼(Model Studio)-阿里云帮助中心

模型简介

通用文本向量，是通义实验室基于LLM底座的多语言文本统一向量模型，面向全球多个主流语种，提供高水准的向量服务，帮助开发者将文本数据快速转换为高质量的向量数据。

模型中文名	模型英文名	向量维度	单次请求文本最大行数	单行最大处理token长度	支持语种
通用文本向量	text-embedding-v1	1536	25	2048	中文、英语、西班牙语、法语、葡萄牙语、印尼语。
	text-embedding-async-v1	1536	100000	2048	中文、英语、西班牙语、法语、葡萄牙语、印尼语。
	text-embedding-v2	1536	25	2048	中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。
	text-embedding-async-v2	1536	100000	2048	中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。
	text-embedding-v3	1024 768 512	6	8192	中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语等50+语种

text-embedding-v2是text-embedding-v1模型的升级版本, 更新内容主要包括：

说明

text-embedding-v3模型是text-embedding-v2模型的升级版本，更新内容主要包括：

语种扩充：text-embedding-v3模型对比text-embedding-v2模型扩展了意大利语、波兰语、越南语、泰语等语种，支持语种数量增加到50+。
输入长度扩展：支持编码的输入长度从2048扩展至8192, 对text-embedding-v3, 8192指文本输入的最大token长度
可变输出连续向量维度: 相比text-embedding-v2模型的固定1536向量维度, text-embedding-v3支持用户自定义连续向量的维度, 目前可以选择512,768和1024维度；同时为了进一步节省下游任务的使用成本，text-embedding-v3模型在不衰减效果的前提下将最大的向量维度降低至1024维。
不再区分Query/Document类型：text-embedding-v3模型在不降低模型效果的前提下不再区分输入文本的类型，text_type参数无需指定输入的文本是Query还是Document类型。
Sparse向量支持: text-embedding-v3模型同时支持连续向量表示（dense vector）和离散向量表示模型（sparse vector）, 用户可以在接口参数中指定输出连续向量、离散向量或者同时输出。
效果提升：预训练模型底座和SFT策略优化提升embedding模型整体效果，公开数据评测结果。

模型服务	模型名称	模型简介	应用场景
通用文本向量	text-embedding-v1	支持多语种输出，包含中文、英语、西班牙语、法语、葡萄牙语、印尼语。	文本搜索 RAG
	text-embedding-v2	支持多语种输出，包含中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。
	text-embedding-v3	支持多语种输出，包含中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。
	text-embedding-async-v1	支持多种语种输出，包含中文、英语、西班牙语、法语、葡萄牙语、印尼语。
	text-embedding-async-v2	支持多种语种输出，包含中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语。