利用Hologres加速HDBSCAN聚类

在“一切皆可向量化”的今天,向量(Embedding)已不再是深度神经网络的附属,而是保存信息和特征的高效数据形式。借助无监督聚类我们可以挖掘数据中潜在的规律,为业务提供有价值的指导。

HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)是一种结合密度聚类和层次聚类思想的算法,由于其出色的自适应和去噪能力,它被广泛应用于 Embedding 聚类场景。然而,HDBSCAN 算法流程中需要计算数据点之间的距离,对于高维向量来说,这是非常耗费计算资源的操作,并且样本量翻倍,计算代价呈指数级增长。

Hologres 是阿里云自研的低成本、高性能、高可用实时数仓,它提供原生的向量存储和检索能力,并内置了多种距离函数(欧式、内积和余弦距离),是计算向量距离的利器。

本案例将利用 Hologres 的向量能力,预计算出向量数据之间的距离,实现 HDBSCAN 聚类的加速。

本文实践已集成至人工智能平台PAI Notebook Gallery,您可以通过交互式建模DSW快速完成该实践。详情请登录参见利用Hologres加速HDBSCAN聚类