产品架构

智能媒体管理围绕海量数据、端云拉通、标准统一、智能分析、场景结合及一键处理六个关键点,采用分层架构进行设计。该分层架构由处理引擎、元数据管理和场景化封装三层构成。

智能媒体管理采用分层架构进行设计,该架构包含处理引擎、元数据管理和场景化封装三层,并且存在依赖关系的上下层应用及场景,如下图所示。

  • 对下依赖对象存储、文件存储等阿里云存储服务,通过安全的机制访问阿里云存储中的非结构化数据(例如图片、视频),提取有价值的信息。

  • 对上基于场景理解进行封装,支撑网盘、云相册、社交图库、家庭监控等图片和视频应用场景,为应用提供新的价值。

fig001

处理引擎层

基于阿里云存储提供就近构建计算框架,该框架支持批量异步处理、实时同步处理,在一键关联阿里云存储(例如指定OSS Bucket的目录前缀、指定OSS Bucket的某个对象)后,实现快速的自动数据处理,通过整合业界先进的数据处理算法,目前处理引擎层提供如下功能:

  • 文档格式转换

    支持将包括OFFICE在内的48种格式的文档转换为JPG、PNG、PDF、TXT、VECTOR 5种格式,可用于网盘文档浏览等场景。

  • 内容识别

    识别图片中场景、物体、事件等信息,实现图片的自动打标,可用于图片内容审核、图片检索等场景。

  • 人脸检测

    检测图片中的人脸以及人的年龄、性别、心情等,可用于相册分类等场景。

  • 二维码检测

    检测图片中的二维码以及二维码中存储的内容,可以判断图片中是否含有二维码信息,输出二维码包含的信息,可用于图像内容审核等场景。

  • 人体检测

    检测图片中的人体区域和置信度,可用于异常行为检测等场景。

  • 人脸搜索

    搜索与指定图片最相似的前N张图片,结果按相似度降序排列,可用于会员管理、相册分类、目标人员搜索等场景。

  • 人脸对比

    比较两张图片中分别最大的两个人脸的相似度,可用于身份识别验证等场景。

  • 图片盲水印

    为图片添加图片或文字类型的盲水印。盲水印添加后,在图片中不能直接看到该水印,但是可以通过使用智能媒体管理的解析图片盲水印功能恢复图中隐藏的水印,可用于图片版权追溯等场景。

元数据管理层

基于处理引擎层提供的功能,通过对场景的深入理解和梳理,智能媒体管理封装了场景的元数据设计,对外提供场景的元数据访问接口,简化场景应用的设计难度、无需关注元数据索引数据库的运维工作,目前支持的元数据索引如下:

  • 人脸聚类索引

    构建元数据集合,然后调用人脸分组的索引接口分析图片,将得到的元数据加入到该元数据集合中,从而可以得到该集合中相似的人脸。通过该索引,可以快速的支撑网盘的人脸相册、家庭监控的陌生人检测、新零售的顾客管理等场景。

  • 标签分组索引

    构建元数据集合,然后调用标签分组的索引接口分析图片,将得到的元数据加入到该元数据集合中,从而可以根据标签搜索图片。通过该索引,可以快速的支撑网盘的场景相册、家庭监控的宠物跟踪、低俗图片等标签的搜索。

场景封装层

通过阿里云对场景的支撑,把处理引擎层和元数据管理层的功能进行包装,并按照资源包方式提供出来,从而简化使用,方便应用快速的接入,实现AI和场景的紧密结合,目前支持的场景实例如下:

  • 文档标准型

    将文档相关的格式转换和预览整合,快速实现文档的智能管理能力。

  • 图片标准型

    将内容识别、人脸检测等AI功能整合,快速实现图片的智能管理能力。