通过OSS向量检索,您可以基于语义内容、OSS元数据、多媒体元数据、对象ETag及标签和自定义元数据等条件,快速定位海量Object中的目标文件,优化检索效率。
使用场景
个人及企业办公场景
向量检索可以通过特定语义内容直接对办公文件进行搜索,例如直接搜索“ERP 系统使用方式”、“IT 维修流程”、“2024 年经营情况分析”等关键词,以实现文件搜索方式的便捷化,从而提升办公效率。
多媒体社交场景
在多媒体社交场景中,您可以利用检索能力,为您的用户提供特定内容和多媒体数据检索功能。例如,在某款社交应用程序中,用户上传了大量图片数据。通过语义检索,用户可以直接根据内容进行图片搜索,比如直接搜索内容为“郊外春游”、“春节团聚”、“我见过的大海”等照片,从而为应用程序增加实用性和趣味性。
网盘场景
在网盘场景中,目前大多数提供基于标量检索的文件搜索功能,例如按文件名称、创建时间或文件后缀进行搜索。网盘通常应用于个人或企业场景,用户可以利用向量检索功能,对网盘中的特定内容进行搜索,比如相关文档或相册中的相关图片。
视频监控场景
针对视频监控存储的数据,企业可以利用向量检索能力对监控数据中的部分文件进行搜索。比如输入“雪天户外监控”、“晴天中的果园”等关键词,即可对相应文件进行检索。
注意事项
地域限制
华南3(广州)地域的Bucket支持使用向量检索功能。
Bucket限制
向量检索支持文件数量最多100亿的Bucket。对于文件数量不超过1亿的Bucket,您可以直接启用此功能;而当文件数量超过1亿时,请联系技术支持申请开通。
费用说明
向量检索目前是公测阶段。使用向量检索功能会产生Object的元数据管理费用以及检索次数费用,但公测期间暂不收费。关于向量检索计费项的更多信息,请参见数据索引费用。
除向量检索计费项外,使用向量检索还会产生API请求费用,按照API调用次数收费。涉及的API请求如下:
行为
API
次数
为Bucket中的文件构建索引
HeadObject和GetObject
每个文件调用1次
Bucket中文件存在Tag
GetObjectTag
每个携带Tag的文件调用1次
Bucket中文件携带自定义Meta
GetObjectMeta
每个携带自定义Meta的文件调用1次
Bucket中存在软链接文件
GetSymlink
每个携带软链接的文件调用1次
扫描Bucket中的文件
ListObjects
每扫描1000个文件调用1次
关于OSS API的请求费用,请参见请求费用。
建立索引所需时间
开启向量检索功能时,建立索引所需时间与Bucket内存量的文件数量成正比。文件数量越多,建立索引的时间越长。 一般来说,1000万个文件初次建立索引的时间约为1小时,10亿个文件初次建立索引的时间约为1天,100亿个文件初次建立索引的时间约为2~3天,该时间仅供参考。
分片上传
对于通过分片上传生成的Object,查询结果中只显示已通过CompleteMultipartUpload操作将碎片(Part)合成的完整Object,不显示已初始化但未完成(Complete)或者未中止(Abort)的碎片。
操作步骤
使用OSS控制台
使用REST API
检索条件和输出设置
检索条件设置
以下是完整的检索条件,您可以根据需要设置单个或多个检索条件。
结果输出设置
您可对输出结果进行排序和简单统计。
对象排序方式:支持根据最后修改时间、文件名和文件大小进行升序、降序及默认排序。您可以按需选择并排序检索结果,便于快速找到所需文件。
数据聚合:支持多种输出类型,您可以对检索结果进行去重统计、分组计数、最大值、最小值、平均值和求和等计算,便于高效分析和管理数据。
常见问题
为什么文件上传后,无法立即检索到?
文件上传后,对应文件的索引生成需要一定时间,所以查询结果会有一定程度的延迟,可能无法立即得到查询结果,等待片刻后重试即可。