AnalyticDB PostgreSQL版的向量分析旨在帮助您实现非结构化数据的近似检索和分析,具备丰富功能和优异性能。
功能说明
向量分析实现原理是通过AI算法提取非结构化数据的特征,然后利用特征向量唯一标识非结构化数据,向量间的距离用于衡量非结构化数据之间的相似度。AnalyticDB PostgreSQL版向量检索分析基于MPP查询架构构建,帮助用户实现基于SQL接口进行非结构化数据检索,并支持同结构化数据的关联分析。
典型应用场景
通过AnalyticDB PostgreSQL版向量分析,您可以非常容易地搭建各种智能化应用。
以图搜图,即通过图片检索图片。
声纹匹配,通过音频检索音频。
基于语义的文本检索和推荐,通过文本检索近似文本。
文件去重,通过文件指纹去除重复文件。
商品图片分析,在大量图片中分析哪些图片包含了同一个商品。
向量分析作为AnalyticDB PostgreSQL版向量分析的高级特性目前已经服务阿里巴巴内外部多项业务,包括阿里巴巴数据中台,阿里巴巴电商新零售业务,阿里云城市大脑。
典型架构
Web App把文本,图片或者视频等非结构化数据(后续简称非结构化数据)通过特征提取服务提取特征向量,然后再把特征向量写入云原生数据仓库PostgreSQL版向量分析的向量表。
Web App检索的时候首先把非结构化数据通过特征提取服务接口提取出向量,然后调用云原生数据仓库PostgreSQL版向量分析的查询分析接口做查询。
优势
云原生数据仓库AnalyticDB PostgreSQL版的向量分析特性针对非结构化数据检索分析,与普通的检索系统有较大的差异,主要体现在下面的几点:
结构化和非结构化混合分析
例如,可以检索与输入图片中的连衣裙相似度最高、价格在100元到200元之间且上架时间在最近1个月以内的产品。
支持数据实时更新
传统的向量分析系统中数据只能按照T+1更新,不支持数据实时写入。云原生数据仓库PostgreSQL版向量分析支持数据实时更新和查询。
支持向量分析碰撞
AnalyticDB PostgreSQL版向量分析支持KNN-Join,即比较一堆向量与另外一堆向量的相似度,类似于spark中的KNN-Join操作,这种场景计算量巨大,AnalyticDB PostgreSQL版针对该场景做了大量优化。
典型的应用场景有商品去重,计算新加入的商品与历史商品库中有哪些是相似的。人脸聚类,计算一段时间内的人脸库中,哪些人脸是同一个人。
易用性
AnalyticDB PostgreSQL版向量分析申请即可使用,支持标准SQL,简化开发流程。
低成本
向量数据占用空间非常大,1条512维float向量,占用2k存储空间,AnalyticDB PostgreSQL版向量支持FP32数据压缩成FP16,降低一半存储成本。