文档

多媒体分析概述

更新时间:

多媒体分析为您提供多媒体领域内的算法识别服务,包括基础模型服务和高级模型服务,为您提供开箱即用的算法服务能力。本文为您介绍多媒体分析相关计费说明和使用指导。

背景信息

多媒体分析支持的算法服务如下:

  • 基础模型服务:提供图像领域内开箱即用的算法服务能力,包括图像多标签、图像质量分评定、人脸属性分析(颜值、脸型、发型、发色等信息)、年龄分析、人像身材修改(瘦身/大码)、图像去水印等模型服务。

  • 高级模型服务:提供视频领域内开箱即用的算法服务能力,包括视频分类打标、视频质量分评定、图文视频动态分类打标(用于动态、帖子类的多模态内容打标)、AI绘图打标(打标结果用于提升AI绘图模型训练效果)等模型服务。

计费说明

多媒体分析提供按量付费后付费和资源包预付费两种计费方式,具体计费说明,详情请参见多媒体分析计费说明

使用指导

开通多媒体分析服务和购买资源包

新用户首先需要在人工智能平台PAI场景化解决方案多媒体分析中开通服务,具体操作步骤如下。

  1. 登录PAI控制台

  2. 按照下图操作指引,开通多媒体分析服务。

  3. 默认使用按量付费(后付费)方式,按调用量计费。38e9535689e0b041a5c5c5a0ca32dd1a.png

您也可以选择购买资源包,一次性付费购买,享受更优惠的价格。

  1. 多媒体分析页面的基础模型服务页签,单击购买次数包

  2. 模型服务预付费页面,配置购买数量场景规格API调用次数,并单击立即购买

  3. 其中:场景规格支持选择多媒体分析-基础模型服务多媒体分析-高级模型服务;其他参数根据使用场景进行选择。

Python SDK使用说明

开通多媒体分析服务后,您可以使用Python SDK调用各项算法服务,详情请参见多媒体分析:Python SDK使用说明

Java SDK使用说明

开通多媒体分析服务后,使用Java SDK调用各项算法服务API接口的操作详情,请参见Java SDK GitHub。Java SDK和Python SDK的参数基本一致。若需了解具体参数说明,请参考多媒体分析:Python SDK使用说明

多媒体分析能力矩阵

规格

模型服务名称

每次服务消耗

描述

示例

基础模型服务

图像质量评分

1次基础模型服务

提供图像质量评估能力,返回 [0, 100] 的浮点数分值。

"iqa_result":66.88

人脸属性分析

1次基础模型服务

  • 提供人脸相关属性的输出,包括脸型、发色、发型、颜值等信息。

  • 根据人脸区域的坐标,将多个人脸区分开来,如果没有检测到人脸,则返回一个空数组。

  • 脸型:三角脸、圆脸、心形脸、方形脸、椭圆脸、菱形脸、长脸。

  • 女性发型:

    • 刘海类型:中分刘海、刘海编发、斜刘海、无刘海、空气刘海、齐刘海。

    • 卷发类型:云朵卷、大波浪、小波浪、氧气卷、空气卷、羊毛卷、蛋卷。

    • 发型:卷发、盘发、直发、扎发、编发。

    • 长短发:中长发、短发、长发。

  • 男性发型:分发、圆寸、子弹头、平头、板寸、毛寸、碎发、背头。

  • 发色:黑色、咖啡色、奶奶灰、栗色、棕色、渐变色、酒红色、金色、黄色、其他颜色。

  • 颜值:0~5 分。

年龄分析

1次基础模型服务

  • 识别图像中主体人脸(唯一)的年龄区间。

  • 如果图像中有多个人脸,则只会返回区域最大的主体人脸的结果。如果图像中没有检测到人脸,将返回错误提示。

年龄区间包含:'0-2''3-9''10-19''20-29''30-39''40-49''50-59''60-69''70+'

图像多标签

1次基础模型服务

提供图像多标签打标能力,可以输出概率最高的Top K个标签以及对应的概率,也可以输出图像的高维特征。

高频标签举例:女生、自拍、男生、生活随拍、截屏、食物、车、美食、游戏、卡通、动物、韩系穿搭等。

人像身材修改

1次基础模型服务

提供人像身材修改功能,您可以上传人像照片,并通过调整degree参数来控制人像的身材,包括胖身或瘦身,其中degree > 0表示瘦身。

接口返回修改后图像的Base64编码。

图像去水印

1次基础模型服务

去除图像中包含的水印。

接口返回去除水印后图像的Base64编码。

AI绘图打标

1次基础模型服务

提供AI绘图(Stable-Diffusion)训练所需的多种图像多标签打标能力,更好的标签能提升训练模型的生图效果。

  • 支持的打标模型:WD14、BLIP、GIT、RAM。

  • caption结果示例:

    "sensitive, 1girl, solo, long hair, looking at viewer, smile, black hair, brown eyes, scarf, lips, realistic"

定制模型服务

N次基础模型服务,具体N的值根据定制模型复杂度有所差异

提供图像、视频相关的定制模型服务。

根据实际定制模型类型确定。

高级模型服务

图文视频动态分类打标

1次高级模型服务

为包含多模态内容的动态或帖子提供分类打标服务,支持使用文本+图片或文本+视频的组合进行分类打标,并支持返回高维特征Embedding。

  • 高频类别举例:生活、影视综艺、体育、旅游、游戏、美食、健身等。

  • 高频标签举例:运动、美食、舞蹈、健身、烹饪、旅游、自拍等。

  • embedding举例:

    0.915,0.882,0.943,0.978,1.027,1.181,1.066,1.029,0.866,0.716,0.628,1.203,0.689,0.533,0.734,1.038,0.98,0.613,0.96,0.88,0.586,0.702,1.515,0.697,0.987,0.699,1.179,4.274,0.757,0.89,0.805,0.901

视频质量评分

1次高级模型服务

提供短视频质量评估能力,返回[0-100]的浮点质量分。

"video_score":20.57

视频分类打标

1次高级模型服务

提供短视频分类打标能力,返回短视频类别和概率较高的Top K个标签及对应概率,也支持输出视频的高维特征。

  • 高频类别举例:生活、知识、音乐、科技、游戏。

  • 高频标签举例:有字幕、小姐姐、社会新闻资讯、瘦身塑形、剧情段子、影视片段、自然风景等。

测试与服务

如果您需要做进一步的测试和服务,请工单联系我们获取技术支持。

  • 本页导读 (1)
文档反馈