文档

非结构化分析

更新时间:

AnalyticDB PostgreSQL版的向量分析旨在帮助您实现非结构化数据的近似检索和分析,具备丰富功能和优异性能。

功能说明

向量分析实现原理是通过AI算法提取非结构化数据的特征,然后利用特征向量唯一标识非结构化数据,向量间的距离用于衡量非结构化数据之间的相似度。AnalyticDB PostgreSQL版向量检索分析基于MPP查询架构构建,帮助用户实现基于SQL接口进行非结构化数据检索,并支持同结构化数据的关联分析。

典型应用场景

通过AnalyticDB PostgreSQL版向量分析,您可以非常容易地搭建各种智能化应用。

  • 以图搜图,即通过图片检索图片。

  • 声纹匹配,通过音频检索音频。

  • 基于语义的文本检索和推荐,通过文本检索近似文本。

  • 文件去重,通过文件指纹去除重复文件。

  • 商品图片分析,在大量图片中分析哪些图片包含了同一个商品。

向量分析作为AnalyticDB PostgreSQL版向量分析的高级特性目前已经服务阿里巴巴内外部多项业务,包括阿里巴巴数据中台,阿里巴巴电商新零售业务,阿里云城市大脑。

典型架构

图 1. 基于AnalyticDB PostgreSQL版实现非结构化数据向量分析示例示例

  • Web App把文本,图片或者视频等非结构化数据(后续简称非结构化数据)通过特征提取服务提取特征向量,然后再把特征向量写入云原生数据仓库PostgreSQL版向量分析的向量表。

  • Web App检索的时候首先把非结构化数据通过特征提取服务接口提取出向量,然后调用云原生数据仓库PostgreSQL版向量分析的查询分析接口做查询。

优势

云原生数据仓库AnalyticDB PostgreSQL版的向量分析特性针对非结构化数据检索分析,与普通的检索系统有较大的差异,主要体现在下面的几点:

  • 结构化和非结构化混合分析

    例如,可以检索与输入图片中的连衣裙相似度最高、价格在100元到200元之间且上架时间在最近1个月以内的产品。

  • 支持数据实时更新

    传统的向量分析系统中数据只能按照T+1更新,不支持数据实时写入。云原生数据仓库PostgreSQL版向量分析支持数据实时更新和查询。

  • 支持向量分析碰撞

    AnalyticDB PostgreSQL版向量分析支持KNN-Join,即比较一堆向量与另外一堆向量的相似度,类似于spark中的KNN-Join操作,这种场景计算量巨大,AnalyticDB PostgreSQL版针对该场景做了大量优化。

    典型的应用场景有商品去重,计算新加入的商品与历史商品库中有哪些是相似的。人脸聚类,计算一段时间内的人脸库中,哪些人脸是同一个人。

  • 易用性

    AnalyticDB PostgreSQL版向量分析申请即可使用,支持标准SQL,简化开发流程。

  • 低成本

    向量数据占用空间非常大,1条512维float向量,占用2k存储空间,AnalyticDB PostgreSQL版向量支持FP32数据压缩成FP16,降低一半存储成本。

  • 本页导读 (1)
文档反馈