方案背景

本文主要为您介绍搭建海量智能元数据管理系统的技术点以及使用表格存储搭建智能元数据管理系统的方案。

用户存储海量的文档、媒体文件等数据的同时,对文件元数据(Meta)的管理不可或缺。元数据拥有多维度的字段信息,基本信息包含文件大小、创建时间、用户等。随着人工智能的发展,通过AI技术提取文件核心要素也成为文件元数据的重要信息。以图片为例:用户通过智能媒体服务,获取分析图片核心标签并为标签打分,用户还可提取人脸识别相关信息以及地理位置等信息,提取的信息也需要存储到文件元数据信息中。因而文件元数据的信息量不断增加,格式和类型也不断呈现多元化。

需求场景

某智能媒体管理平台,为用户提供文件(图片、视频等)管理服务,用户通过自研(或售卖)的智能媒体分析工具,为目标文件进行分析。使用分析后的信息丰富原有的元数据信息。因此,平台需要一套有效的元数据管理方案,为用户提供元数据信息的管理、分析和统计功能。例如:

用户A:(用户A的文件)*(近1年)*(标签含[开心])*的所有图片,按标签分数排序

用户B:(用户B的文件)*(出现某某明星)*的所有视频,按明星相似度排序

......

技术点

对于智能元数据管理系统,通常需要考虑的技术点,包含以下方面:

  • 查询能力:具备强大的查询能力,例如多类型索引、多维度组合查询等,同时具备排序、统计等功能。

  • 横向扩展(多字段):元数据的字段类型丰富,字段变动或增删频繁,数据库尽量支持schema free来保证横向扩展能力。

  • 纵向扩展(数据量):海量文件会对应海量元数据,面对数据膨胀,数据库要满足易扩展、低成本等基本要求。

  • 服务性能:应对高并发请的同时,保证低延迟、强一致、高可用。

image.png

表格存储方案

使用表格存储研发的多元索引(SearchIndex)方案,可以有效解决海量元数据的管理问题。表格存储具有即开即用,按量收费等特点。

表格存储作为阿里云提供的一款全托管、分布式NoSql型数据存储服务,具有【海量数据存储】、【热点数据自动分片】、【海量数据多维检索】等功能,天然地解决了数据大爆炸这一挑战;在应对数据横向、纵向扩展上能充分发挥其优势。多元索引随时创建,是Meta元数据管理的合适方案。同时,SearchIndex功能在保证用户数据高可用的基础上,提供了数据多维度搜索、统计等能力。针对多种场景创建多种索引,实现多种模式的检索。用户可以仅在需要时创建索引。由表格存储来保证数据同步的一致性,这极大地降低了用户方案设计、服务运维、代码开发等工作量。

基于表格存储搭建的智能元数据管理系统样例内嵌在表格存储控制台中,用户可登录控制台体验系统(如果您是表格存储的新用户,需要开通表格存储服务后体验,开通免费,Meta数据存储在公共实例中,体验不消耗用户存储、流量、CU)。

说明

该样例提供了【亿量级】文件元数据。更多信息,请参见项目样例

fig_002image.png