通用文本向量模型介绍

通用文本向量是一种人工智能技术,通过将文本转换为高维向量表示,捕捉其语义信息,从而支持文本相似度计算、分类和检索等多种自然语言处理任务。

场景示例

推荐:根据输入数据推荐相关信息条目。例如,根据用户购买历史和浏览记录推荐相关商品。

聚类:按相关性对输入数据进行分类。例如,将海量新闻按主题归类为科技、体育、娱乐等。

搜索:将搜索结果按照与输入数据的相关性进行排序。例如,文本向量模型可以根据用户搜索词语返回相关网页,多模态向量模型可以实现以文搜图。

异常检测:例如,在金融领域,可以从交易记录中提取特征向量,并标记与正常模式差异较大的交易为潜在欺诈行为。

模型介绍

通用文本向量,是通义实验室基于LLM底座的多语言文本统一向量模型,面向全球多个主流语种,提供高水准的向量服务,帮助开发者将文本数据快速转换为高质量的向量数据。

向量维度指的是向量中包含的元素数量。例如,一个 1024 维的向量包含 1024 个数值。维度越高,向量能表示的信息就越丰富,从而更细致地捕捉文本的特性。

模型名称

向量维度

最大行数

单行最大处理Token

支持语种

单价(每千输入Token)

免费额度(注)

text-embedding-v4

属于Qwen3-Embedding系列

2,048、1,536、1,024(默认)、768、512、256、128、64

10

8,192

中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语等100+主流语种

0.0005

Batch调用:0.00025

100Token

有效期:百炼开通后180天内

text-embedding-v3

1,024(默认)、768、512、256、12864

中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语等50+主流语种

0.0005

Batch调用:0.00025

50Token

有效期:百炼开通后180天内

text-embedding-v2

1,536

25

2,048

中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语

0.0007

Batch调用:0.00035

text-embedding-v1

中文、英语、西班牙语、法语、葡萄牙语、印尼语

text-embedding-async-v2

100,000

中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语

0.0007

2000Token

有效期:百炼开通后180天内

text-embedding-async-v1

中文、英语、西班牙语、法语、葡萄牙语、印尼语

模型升级概述

  1. text-embedding-v2

    • 语种扩充:新增对日语、韩语、德语、俄罗斯语的文本向量化能力。

    • 效果提升:优化了预训练模型和SFT策略,提升了整体效果,公开数据评测结果显示了显著改进。

    • 归一化处理: text-embedding-v2对输出向量结果默认归一化处理

  2. text-embedding-v3

    • 语种扩充:支持意大利语、波兰语、越南语、泰语等,语种数量增加至50+。

    • 输入长度扩展:支持最大输入长度从2,048 Token扩展至8,192 Token。

    • 连续向量维度自定义:允许用户选择512、7681024维度,默认最大维度降低至1024,以节省下游任务的使用成本。

    • 不再区分Query/Document类型:简化输入,text_type参数不再需要指定文本类型。

    • Sparse向量支持:支持输出连续向量和离散向量,用户可在接口中指定。

    • 效果提升:进一步优化预训练模型和SFT策略,提升整体效果,公开数据评测结果显示改善。

模型的效果数据

模型

MTEB

MTEB(Retrieval task)

CMTEB

CMTEB (Retrieval task)

text-embedding-v1

58.30

45.47

59.84

56.59

text-embedding-v2

60.13

49.49

62.17

62.78

text-embedding-v3(1024维度)

63.39

55.41

68.92

73.23

text-embedding-v3(768维度)

62.43

54.74

67.90

72.29

text-embedding-v3(512维度)

62.11

54.30

66.81

71.88

使用注意

重要

向量检索需保持离在线使用的向量化模型一致,使用text-embedding-v1构建离线索引数据的场景请勿使用text-embedding-v2作为query请求的向量化模型,反之亦然。