搭建海量智能元数据管理系统方案

本文主要为您介绍搭建海量智能元数据管理系统的技术点以及使用表格存储搭建智能元数据管理系统的方案。

背景信息

用户在存储海量文档、媒体文件等数据时,元数据管理至关重要。元数据包含多维度字段信息,例如文件大小、创建时间、用户等基本信息。随着人工智能的发展,通过AI技术提取的文件核心要素也逐渐成为元数据的重要组成部分。例如,在图片场景中,智能媒体服务可分析图片的核心标签并评分,还可提取人脸识别、地理位置等相关信息,并将这些内容存储为元数据的一部分。这使得文件元数据的信息量持续增长,格式与类型也更加多元化。

需求场景

某智能媒体管理平台为用户提供文件(图片、视频等)管理服务,用户通过自研(或售卖)的智能媒体分析工具对目标文件进行分析,并使用分析后的信息丰富文件原有的元数据信息。因此,平台需要一套有效的元数据管理方案,为用户提供元数据信息的管理、分析和统计功能。需求样例说明如下:

  • 用户A:(用户A的文件)*(近1年)*(标签含[开心])的所有图片,按标签分数排序

  • 用户B:(用户B的文件)*(出现某某明星)的所有视频,按明星相似度排序

技术点

对于智能元数据管理系统,通常需要考虑的技术点如下:

  • 查询能力:具备强大的查询能力,例如多类型索引、多维度组合查询等,同时具备排序、统计等功能。

  • 横向扩展(多字段):元数据的字段类型丰富,字段变动或增删频繁,数据库尽量支持schema-free来保证横向扩展能力。

  • 纵向扩展(数据量):海量文件会对应海量元数据,面对数据膨胀,数据库要满足易扩展、低成本等基本要求。

  • 服务性能:在应对高并发请求的同时,保证低延迟、强一致性和高可用。

image.png

方案概览

使用表格存储的多元索引(SearchIndex)功能,您可以有效解决海量元数据的管理问题。表格存储具有即开即用,按量收费等特点。

表格存储面向海量结构化数据提供Serverless表存储服务,具有海量数据存储热点数据自动分片、海量数据多维检索等功能,能高效解决数据大爆炸的挑战,在应对数据横向扩展和纵向扩展上能充分发挥其优势。

多元索引支持按需创建,是Meta元数据管理的合适方案。同时,多元索引在保证用户数据高可用的基础上,提供了数据多维度搜索、统计等能力。针对多种场景支持创建多种索引,实现多种模式的检索。用户可以在需要时创建索引,由表格存储来保证数据同步的一致性,能极大地降低用户方案设计、服务运维、代码开发等工作量。