本章节主要为您介绍搭建海量智能元数据管理系统的场景、技术点以及搭建方案。

用户存储海量的文档、媒体文件等数据的同时,对文件元数据(Meta)的管理不可或缺。元数据拥有多维度的字段信息,基本信息包含文件大小、创建时间、用户等。随着人工智能的发展,通过AI技术提取文件核心要素也成为文件元数据的重要信息。以图片为例:用户通过智能媒体服务,获取分析图片核心标签并为标签打分,用户还可提取人脸识别相关信息,以及地理位置等信息,提取的信息也需要存储到文件元数据信息中。因而文件元数据的信息量不断增加,格式、类型也不断呈现多元化。

需求场景

某智能媒体管理平台,为用户提供文件(图片、视频等)管理服务,用户通过自研(或售卖)的智能媒体分析工具,为目标文件进行分析。用分析后的信息丰富原有的元数据信息。因此,平台需要一套有效的元数据管理方案,为用户提供元数据信息的管理、分析、统计功能。例如:

用户A:【用户A的文件】*【近1年】*【标签含[开心]】*的所有图片,按标签分数排序

用户B:【用户B的文件】*【出现某某明星】*的所有视频,按明星相似度排序

......

项目样例,如下所示:



技术点

对于智能元数据管理系统,通常需要考虑的技术点,包含以下方面:

  • 查询能力:具备强大的查询能力,如多类型索引、多维度组合查询等,同时具备排序、统计等功能。
  • 横向扩展(多字段):元数据的字段类型丰富,字段变动、增删频繁,数据库尽量schema free来保证横向扩展能力。
  • 纵向扩展(数据量):海量文件就会对应海量元数据,面对数据膨胀,数据库要满足易扩展、低成本等基本要求。
  • 服务性能:应对高并发请的同时,保证低延迟、强一致、高可用。


表格存储方案

使用表格存储研发的多元索引(SearchIndex)方案,可以有效解决海量元数据的管理问题。表格存储具有即开即用,按量收费等特点。

表格存储作为阿里云提供的一款全托管、分布式NoSql型数据存储服务,具有【海量数据存储】、【热点数据自动分片】、【海量数据多维检索】等功能,天然地解决了数据大爆炸这一挑战;在应对数据横向、纵向扩展上,充分发乎其优势。多元索引随时创建,是Meta元数据管理的合适方案。同时,SearchIndex功能在保证用户数据高可用的基础上,提供了数据多维度搜索、统计等能力。针对多种场景创建多种索引,实现多种模式的检索。用户可以仅在需要的时候创建、开通索引。由表格存储来保证数据同步的一致性,这极大的降低了用户的方案设计、服务运维、代码开发等工作量。

基于表格存储搭建的智能元数据管理系统样例

样例内嵌在表格存储控制台中,用户可登录控制台体验系统(若为表格存储的新用户,需要点击开通服务后体验,开通免费,Meta数据存储在公共实例中,体验不消耗用户存储、流量、CU)。

说明 该样例提供了【亿量级】文件元数据,具体参见项目样例