本文主要介绍涉及该产品的所有API接口及介绍。

阿里云视觉智能开放平台的OpenAPI使用RPC风格的签名验证机制,确保请求的安全性。您可通过官方提供的请求签名流程文档了解签名的具体步骤。为了便于使用,阿里云视觉智能开放平台提供了针对多种编程语言的SDK,您可以直接下载并使用这些SDK来调用平台提供的OpenAPI,无需深入关注背后的技术实现。如果已有SDK不满足特定需求,您也可以选择进行自行签名来对接API。

在使用API之前,请确保已经设置了账号和访问密钥(AccessKey)。AccessKey是调用API进行身份验证的凭证,对保障账号安全至关重要。由于在客户端直接使用AccessKey ID和AccessKey Secret存在安全风险,我们建议在服务器端集成这些凭证。如果需要在客户端使用API,可以使用Security Token Service(STS)生成的临时凭证进行授权,从而安全地调用服务。

关于STS的使用和获取方法,详细信息可参见AssumeRole接口说明。若需创建及管理AccessKey,请参见创建AccessKey

请注意,API能力的使用是基于类目授权的。当您开通一个AI类目时,将获得该类目下所有AI能力的调用权限。

创新专区(aigen)

创新专区类目能力开通链接:立即开通

分类

能力接口名

能力中文名

说明

创新专区

InteractiveScribbleSegmentation

交互式涂抹分割

支持用户通过鼠标涂抹的方式选择目标元素,算法模型通过涂抹区域的位置和大小,自动对涂抹的目标进行分割。

InteractiveFullSegmentation

交互式全图分割

支持以单张图片作为输入,无需任何其他提示,即可返回图片中所有元素的分割结果。用户可以通过点击操作选择其中所需的元素,实现图片中分割元素的自由选择。

人脸人体(facebody)

人脸人体类目能力开通链接:立即开通

分类

能力接口名

能力中文名

说明

人脸检测

DetectFace

人脸检测与五官定位

识别图像中是否有人脸,进行人脸检测后返回检测到的人脸矩形框坐标。

人脸属性

RecognizeExpression

表情识别

在人脸检测基础上,识别各个检测人脸的性别(男或女)、年龄、表情(笑或不笑)、眼镜(戴或不戴)四种属性。

RecognizeFace

人脸属性识别

检测和识别输入图片中人脸的表情。表情种类为:neutral(中性), happiness(高兴), surprise(惊讶), sadness(伤心), anger(生气), disgust(厌恶), fear(害怕)。

人脸编辑

FaceBeauty

人脸美颜

对图像中的人脸进行美颜,包括磨皮、美白、去除黑眼圈、法令纹等。

EnhanceFace

人脸修复增强

对输入的人脸图像进行检测,然后对人脸进行裁剪、对齐、细节增强,最后再融合回原图。

FaceMakeup

人脸美妆

人脸美妆功能模拟彩妆,通过添加整妆彩妆素材,进一步提升人脸美化效果。

FaceTidyup

人脸美型

美型是指对人脸的轮廓和五官进行调整。

BlurFace

人脸信息脱敏

对输入图像中的人脸进行模糊处理,输出脱敏后的图像。

GenerateHumanAnimeStyle

人物动漫化

可以将一张人物图像进行转换处理,生成二次元卡通形象,并返回卡通化后的结果图像。

GenerateHumanSketchStyle

人像素描风格化

可以对一张人物图像自动裁剪其头部区域,生成大头照下的素描画效果。

LiquifyFace

智能瘦脸

输入一张人物图像,自动检测并分析人脸五官特征,生成脸部五官调整瘦脸后的图像。当图像中包含多人,最多可处理3张人脸。

RetouchSkin

智能美肤

输入一张人物图像,自动进行脸部区域匀肤、去瑕疵(痘、痘印、雀斑等),以及全身皮肤区域美白,同时尽可能的保留皮肤质感。支持多人图像处理。

MergeImageFace

图像人脸融合

可以对人物图像中头部以外区域(脖子、躯干和四肢等)进行优化,使其出呈现更符合大众审美的体态,让人体看起来更高挑、苗条和精致,同时保持身体线条流畅、弧度自然、力度适中。支持多人和不同体态(全身、半身)的处理。

AddFaceImageTemplate

图像人脸融合模板增加

可以将已通过内容审核的人脸图像,作为人脸融合的模板,供图像人脸融合功能使用。

QueryFaceImageTemplate

图像人脸融合模板查询

可以查询已创建的人脸模板。

DeleteFaceImageTemplate

图像人脸融合模板删除

可以删除已创建的人脸模板。

人体识别

BodyPosture

人体姿态关键点

获取手势的二十一个关键点信息。

HandPosture

手势关键点检测

获取人体的十八个关键点信息。

RecognizeAction

动作行为识别

检测图像中的人体。

DetectBodyCount

人体计数

识别视频和图像中的人体动作行为,并返回识别后的行为类别。当前可以识别的行为类别包括:举手、吃喝、吸烟、打电话、玩手机、趴桌睡觉、跌倒。

DetectPedestrian

人体检测

识别输入图片中的人脸数量。

PedestrianDetectAttribute

人体结构化属性

检测图片中人体的属性,具体功能包括人体检测以及属性预估。例如:性别,年龄,朝向,帽子,眼镜,包,衣服,颜色等。

DetectPedestrianIntrusion

行人区域进入检测

基于深度学习算法,检测视频监测周界或区域是否有人员入侵。

RecognizeHandGesture

静态手势识别

可以识别图片中的手势动作等。

MonitorExamination

线上监考

对线上考试的考生行为进行识别,支持屏幕聊天工具检测和考生状态检测。

ExtractFingerPrint

指纹提取

可以对输入的一张手指拍照图像自动定位其手指区域,并生成二值化黑白按压式指纹图像。

活体检测

DetectVideoLivingFace

视频活体检测

检测输入视频中的人脸来自直接拍摄还是翻拍。

DetectLivingFace

人脸活体检测

检测输入图片中的活体对象(主要是人脸)来自直接拍摄或者翻拍。活体判断的前提条件是图片中有人脸。

DetectInfraredLivingFace

红外人脸活体检测

可以检测红外图片中的人脸是否为来自认证设备端的近距离裸拍活体人脸对象,可广泛应用在红外设备人脸实时采集场景,满足红外人脸注册认证的真实性和安全性要求,判断的前置条件是红外图像中有人脸。

人脸识别

RecognizePublicFace

公众人物识别

识别图片中的一个或多个公众人脸信息。

DetectCelebrity

明星识别

识别图像中的明星人物。

CompareFace

人脸比对1:1

基于输入的两张图片,可以检测两张图片中的人脸,并对两张图片中的最大人脸进行比较,判断是否是同一人。

CompareFaceWithMask

口罩人脸比对1:1

基于您输入的两张图片,分别挑选两张图片中的最大人脸进行比较,判断是否为同一人。融合戴口罩生成、抗遮挡关键点定位、抗遮挡特征注意力三大技术优化,实现戴口罩时的极速人脸识别。

SearchFace

人脸搜索

根据输入图片,在数据库中搜索相似的人脸图片数据。

CreateFaceDb

创建人脸数据库

创建人脸数据库。

ListFaceDbs

查询人脸数据库列表

查看人脸数据库列表。

AddFaceEntity

添加人脸样本

向人脸数据库中添加人脸样本数据。

GetFaceEntity

查询人脸样本

查询人脸数据库中的人脸样本数据。

ListFaceEntities

查询人脸样本列表

查询人脸数据库中的人脸样本列表。

UpdateFaceEntity

更新人脸样本

更新人脸数据库中的人脸样本数据。

AddFace

添加人脸数据

为指定数据库添加人脸数据。

BatchAddFaces

批量添加人脸数据

批量添加人脸数据

DeleteFace

删除人脸

删除指定数据库中的人脸图片信息。

DeleteFaceEntity

删除人脸样本

删除人脸数据库中的人脸样本数据。

DeleteFaceDb

删除数据库

删除指定的人脸数据库。

金融级人脸检测

ExecuteServerSideVerification

人脸核身服务端

可以在服务端依据被验证的人名和身份证号码,请求身份验证的用户图像信息。

GenRealPersonVerificationToken

核身认证移动端请求

可以在移动端依据被验证的人名和身份证号码,请求身份验证的用户图像信息。

GetRealPersonVerificationResult

核身认证移动端查询

可以确认在证件合法且姓名匹配后,返回身份验证的用户图像信息。

文字识别(ocr)

文字识别类目能力开通链接:立即开通

分类

能力接口名

能力中文名

说明

个人类卡证识别

RecognizeIdentityCard

身份证识别

识别二代身份证关键字段内容,关键字段包括:姓名、性别、民族、身份证号、出生日期、地址信息、有效起始时间、签发机关,同时可输出身份证区域位置和人脸位置信息。

RecognizeBankCard

银行卡识别

输入主流银行卡图像,输出3个信息,包括:发卡行、银行卡号、有效日期。

RecognizeQrCode

二维码识别

识别图像中是否含有二维码信息,输出图像中二维码包含的文本信息(每个二维码对应的URL或文本),可支持图像中含有多个二维码识别。

资产类证件识别

RecognizeBusinessLicense

营业执照识别

识别营业执照关键字段内容,包括:公司地址、营业范围、注册资本、注册日期、公司法人、公司名称、注册号、公司类型、公司营业期限日期,同时可输出营业执照上二维码、印章位置。

通用文字类识别

RecognizeCharacter

通用文字识别

识别图像中文字内容和文字区域坐标,适用于多场景图像文字识别。

RecognizeTable

表格识别

自动识别表格位置、表格内容信息。适用于黑色的,横线、竖线都齐全的表格中内容识别。

RecognizePdf

PDF识别

可以对PDF上的文字进行结构化识别。

RecognizeVideoCharacter

视频文字识别

可以实现对输入视频的结构化处理,返回对应的文字内容、文字区域坐标及时间等信息。

车辆交通类识别

RecognizeDrivingLicense

行驶证识别

识别行驶证首页和副页关键字段内容,输出品牌型号、车辆类型、车牌号码、检验记录、核定载质量、核定载人数等21个关键字段信息。

RecognizeVINCode

VIN码识别

识别车辆VIN码,输出车辆VIN码数值。

RecognizeDriverLicense

驾驶证识别

识别驾驶证首页和副页关键字段内容,包括:档案编号、姓名、有效期时长、性别、发证日期、驾驶证号、驾驶证准驾车型、有效期开始时间、地址,共9个关键字段信息。

RecognizeLicensePlate

车牌识别

准确识别出图像中车牌位置,输出车牌位置坐标、车牌类型、车牌号码、车牌号码置信度、车牌置信度,共5个关键字段信息。

行业票证类识别

RecognizeTaxiInvoice

出租车发票识别

准确识别出全国各大城市出租车发票在图像中的位置,支持出租车发票结构化识别,输出发票号码、代码、车号、日期、时间、金额,共6个关键字段信息。

RecognizeVATInvoice

增值税发票识别

可以识别增值税发票(电子发票和纸质发票)关键字段内容,包括:校验码、复核人、开票人、发票代码、收款人等。

RecognizeTrainTicket

火车票识别

支持火车票结构化识别,输出乘车时间、始发站、目的站、座位席别、乘车人姓名、车次号、票价、车厢及座次号,共8个关键字段信息。

RecognizeQuotaInvoice

定额发票识别

可以对定额发票上的发票号码、发票代码、发票金额进行结构化识别。

RecognizeTicketInvoice

增值税发票卷票识别

支持对卷票上包括价税合计、发票代码、发票号码、合计税额、合计金额、密码区、开票日期、税率、购买方识别号、销售方识别号等进行结构化识别。

商品理解(goodstech)

商品理解类目能力开通链接:立即开通

分类

能力接口名

能力中文名

说明

商品理解

ClassifyCommodity

商品分类

识别图像中的商品分类,返回商品类目、置信度等信息。

内容审核(imageaudit)

内容审核类目能力开通链接:立即开通

分类

能力接口名

能力中文名

说明

内容审核

ScanText

文本内容安全

支持检测的场景包括:文字垃圾内容识别、文字广告内容识别、文字敏感内容识别、文字暴恐内容识别、文字辱骂内容识别、文字鉴黄内容识别、文字灌水内容识别、文字违禁内容识别。

ScanImage

图片内容安全

支持检测的场景包括:图片智能鉴黄、图片敏感内容识别、图片风险人物识别、图片垃圾广告识别、图片不良场景识别、图片Logo识别。

图像识别(imagerecog)

图像识别类目能力开通链接:立即开通

分类

能力接口名

能力中文名

说明

图像打标

TaggingImage

通用图像打标

识别图像中的主体内容并打上类型标签,支持数千个内容标签,覆盖常见物体品类。

TaggingAdImage

广告素材分析

可以对素材图片中的人物(明星、素人、CG人物)、场景等打上标签信息,可支持数千个内容标签,覆盖范围广。

基础识别

RecognizeImageColor

颜色识别

对输入图的颜色信息进行分析,给出颜色值(RGB形式和HEX格式)与对应的占比信息。

DetectImageElements

元素识别

识别输入图中所包含的元素,用矩形框标注出其位置,并区分其对应的基本类型(人/物、修饰、文案)。

RecognizeImageStyle

风格识别

对输入图的风格类型进行分析,给出可能的风格标签。例如:

  • 视觉风格:中国风

  • 语义风格:典雅

ClassifyingRubbish

垃圾分类识别

对图片中的垃圾进行分类,并给出具体的物品名称。

EvaluateCertificateQuality

证件照质量审核

可以识别拍摄的证件照片是否存在质量问题,且有哪些质量问题。

RecognizeFood

菜品识别

可以识别出图片中的菜品类别名称和热量。

场景识别

RecognizeScene

场景识别

识别图像所处的场景环境,支持数十种常见场景,如天空、草地等。

图像生产(imageenhan)

图像生产类目能力开通链接:立即开通

分类

能力接口名

能力中文名

说明

图像生成

GenerateImageWithText

文生图

由于产品业务和安全合规调整,文生图、图文生图服务将于2023年06月19日起停止更新,后续不再支持新用户开通接入服务。同时,文生图、图文生图API服务计划于2023年09月30日完成服务下线,请老用户提前做好服务迁移计划。2023年06月19日之后,会继续支持老用户,老用户如果对文生图、图文生图API服务使用有疑问,可通过搜索钉钉群(23109592)加入阿里云视觉智能开放平台咨询群联系我们。

GenerateImageWithTextAndImage

图文生图

GenerateSuperResolutionImage

生成式图像超分

基于生成式大模型,在放大图像分辨率的同时,显著提升图像细节丰富度,使图像变得更加清晰。

图像增强

ExtendImageStyle

风格迁移

将输入图按照指定的风格图像进行风格的迁移,使得图像的色彩、笔触等视觉风格发生转化。

RecolorImage

色彩迁移

将输入图自动或根据指定色板进行色彩转换,同时保证视觉热点区域避免不正常拓色。

MakeSuperResolutionImage

图像超分

将输入图放大四倍,同时基于推断出的细节保持结果图像的清晰度。

GenerateDynamicImage

图像微动

对输入图像中包括的天空区域及人物头发区域进行静转动处理,得到微动的AVI格式视频。

RecolorHDImage

高清色彩迁移

对高清图像进行颜色拓色,并能够保证人像部分颜色不发生变化。

EnhanceImageColor

图像色彩增强

对输入图片的饱和度、亮度以及肤色等进行最优调整。

ColorizeImage

图片上色

对黑白照片、黑白图像自动上色。

图像编辑

ChangeImageSize

图像裁剪

对输入图片进行指定尺寸变换,自动判断主体区域位置,使用最佳的裁剪方式对图片进行裁剪。

IntelligentComposition

智能构图

对输入图像进行美学评估,智能输出bounding box,根据这些bounding box可以将原图裁剪成构图更好的图像。

ImitatePhotoStyle

照图修图

将输入的参考图的光照、色彩等不影响原图结构的风格迁移至目标图。

RemoveImageSubtitles

字幕擦除

擦除图片中的标准字幕。

RemoveImageWatermark

图像标志擦除

擦除图片中的常见标志,如台标、互联网平台logo等。

ImageBlindPicWatermark

图像隐形图片水印

图像盲水印算法,加/解析水印,添加内容包括图像logo和文字两种。

ImageBlindCharacterWatermark

图像隐形文字水印

图像盲水印算法,加/解析水印,添加内容包括图像logo和文字两种。

ErasePerson

图像人体擦除

可以擦除图像中指定区域的人像,并自动填充背景。

图像评分

AssessComposition

图像构图美学评分

检测输入图像,输出图像的构图美学评分。

AssessExposure

图像曝光度评分

检测输入图像,输出图像的曝光度评分。

AssessSharpness

图像清晰度评分

检测输入图像,输出图像的清晰度评分。

分割抠图(imageseg)

分割抠图类目能力开通链接:立即开通

分类

能力接口名

能力中文名

说明

人像分割

SegmentBody

人体分割

识别输入图像中的人体轮廓,与背景进行分离,返回分割后的前景人像图(4通道)。适用于单人或多人、复杂背景、各类人体姿态等场景。

SegmentHead

头像分割

识别输入图像中的人脸轮廓,不包含脖子、耳朵、头发,返回仅人脸区域可视的透明图(4通道)。适用于单人或多人场景。

SegmentHair

头发分割

识别输入图像中的头发轮廓,不含脖子、耳朵,返回仅头发区域可视的透明图(4通道),适用于单人或多人场景。

ParseFace

五官分割

识别输入图像中的五官轮廓,对眼睛、鼻子、嘴进行像素级语义分割,人脸比较明显的图片输入效果更好。

SegmentSkin

皮肤分割

识别图片中的人物皮肤,并对图中人物的皮肤区域进行分割。

SegmentHDBody

高清人体分割

自动识别图中人体轮廓,实现与背景进行分离,返回分割后的前景人像图。本功能适用于真人图片,不适用于卡通图片。

商品分割

SegmentCloth

服饰分割

对输入图像中的服饰进行像素级抠图,并返回抠图结果。

SegmentCommodity

商品分割

识别输入图像中的商品轮廓,与背景进行分离,返回分割后的前景商品图(4通道)。适用于单商品或多商品、复杂背景等场景。

通用分割

SegmentCommonImage

通用分割

自动识别输入图像中的视觉中心主体轮廓,将主体作为前景擦除背景,返回分割后的前景主体图(4通道)。适用于人、动物、食物、物品等抠图场景。

SegmentSky

天空分割

识别输入图像中的天空区域,与背景进行分离,返回分割后的前景区域图。

SegmentFood

食品分割

对图片中的食品进行像素级抠图,并返回抠图结果。

RefineMask

Mask精细化分割

对输入的图像与粗糙mask进行精细化处理,输出精细化mask。

SegmentHDSky

天空高清分割

可以对输入图片中的天空进行像素级抠图,实现分割功能。

SegmentHDCommonImage

通用高清分割

可以对图片中的主体进行分割,并输出对应的PNG格式透明图。

分割替换

ChangeSky

天空替换

将参考图的天空样式替换到目标图中,从而改变目标图的天空样式。

图像分析处理(imageprocess)

图像分析处理类目能力开通链接:立即开通

分类

能力接口名

能力中文名

说明

医疗图像分析

DetectCovid19Cad

新冠病毒肺炎辅助诊断

对输入的DICOM影像(如5 mm的单个序列,API仅接受单序列),进行新型冠状肺炎的影像分析。

DetectLungNodule

胸部CT肺结节检测

对输入的胸部常规CT形成的DICOM影像(如5 mm的单个序列,API仅接受单序列),进行肺结节的辅助诊断。

CalcCACS

冠脉钙化积分测算

根据胸部平扫CT进行冠脉钙化积分测算。输入标准DICOM格式或NIFTI格式的图像,输出钙化积分值和分割结果HTTP下载路径。

RunCTRegistration

胸部CT配准

根据同病人不同时期的胸部CT扫描,进行图像配准。输入两套标准DICOM数据,分别作为参考图像和待配准图像,输出配准结果HTTP下载路径。

RunMedQA

医学智能问答

面向儿科疾病科普的医学健康知识问答,提供常见问题答案及相似的问题。

FeedbackSession

会话反馈

DetectSkinDisease

皮肤病检测

对输入的儿科皮肤自然图像进行皮肤病分类预测。

DetectRibFracture

肋骨骨折检测

根据胸部CT成像进行肋骨骨折的辅助诊断,并输出骨折的位置及骨折的类型。

ScreenChestCT

胸部CT平扫筛查

查基于常规胸部CT影像,实现了人体胸部多器官及多病种的检测及量化分析,主要功能如下:

  1. 基于常规胸部CT自动测量冠状动脉的钙化积分值。

  2. 自动检出肺结节,输出结节体积、平均灰度和AI结构化报告。

  3. 自动分割肺叶区域肺炎病灶,输出病灶的大小和肺炎的类型等信息。

  4. 检出肋骨骨折,并给出骨折的类型。

  5. 可检测胸部平扫或增强CT中的肿大淋巴结,包含胸部的纵膈、肺门和锁骨上淋巴结。

  6. 根据输入的胸部平扫CT,评估胰腺癌风险。

AnalyzeChestVessel

主动脉瘤肺动脉高压检测

可以对输入的胸部CT平扫DICOM影像数据中的主动脉及肺动脉进行分割,并分别提取其中心线,然后根据中心线生成最佳视角的Stretch CPR图像、Cross Section图像及环绕血管一周的Straightened CPR图像,同时返回每根血管的最大直径,沿中心线上每隔1毫米处垂直于血管的血管截面积及这些点在原始图像病人坐标系中的位置。

DetectLymph

淋巴结检测

可以检测胸部平扫或增强CT中的肿大淋巴结,包含胸部的纵膈、肺门和锁骨上淋巴结。

DetectPanc

胰腺癌检测

可以根据输入的胸部平扫CT评估胰腺癌风险。

SegmentOAR

多器官分割

针对放疗场景,基于输入的胸部CT图像,进行危及器官的识别与分割。

ScreenEC

食管癌检测

可以根据输入的胸部平扫CT评估食管癌风险。

TargetVolumeSegment

放疗靶区勾画

可以根据输入的胸部平扫或增强CT,指定癌症类型和靶区类型,进行智能靶区勾画。

SegmentLymphNode

放疗淋巴站分割

可以根据输入的胸部平扫或增强CT,指定目标部位,进行淋巴站分割。

CalcBMD

骨密度估计

可以根据输入的胸部或腹部CT成像进行椎体定位、命名以及骨密度估计。

DetectLiverSteatosis

脂肪肝检测

可以根据输入的胸部或腹部CT成像进行肝脾定位分割,以及肝脾全局或局部密度统计测量,最终根据测量结果和深度模型计算,判断有无脂肪肝以及脂肪肝的严重程度。

ScreenGC

胃癌检测

可以根据输入扫描范围覆盖胃的平扫CT(例如胸部或腹部平扫CT等),检测胃癌和非胃癌病变。

ScreenLC

肝癌检测

可以根据输入扫描范围覆盖肝脏的平扫CT,检测多种肝脏肿瘤。

ScreenCRC

结直肠癌检测

可以根据输入扫描范围覆盖结直肠的平扫CT,如:胸部平扫CT、腹部平扫CT等,检测结直肠癌(colorectal cancer,CRC)。

PredictCVD

CVD心血管不良事件检测

可以基于平扫胸部(胸腹部)CT(门控或非门控都可以),实现冠脉钙化积分、主动脉钙化积分、心外膜脂肪等13种指标的量化值,并给出该患者发生心血管不良事件的概率。

目标检测(objectdet)

目标检测类目能力开通链接:立即开通

分类

能力接口名

能力中文名

车辆检测

DetectVehicleICongestion

车辆拥堵检测

根据图片中的车辆,判断是否发生拥堵。

DetectVehicleIllegalParking

车辆违停检测

可通过检测图片中目标区域内是否有车辆停放。

通用检测

DetectMainBody

主体检测

检测图像中的内容主体,返回该主体的区域位置/坐标信息。

DetectWhiteBaseImage

白底图检测

检测图片背景是否为白底。

DetectKitchenAnimals

猫鼠识别

基于视觉AI算法、物联网、大数据分析技术,猫鼠识别能力可以检测出场景中是否有猫、老鼠等动物,实现实时预警。

DetectWorkwear

着装检测

基于视觉AI算法、物联网、大数据分析技术,检测指定场景范围内的人员帽子、口罩、工作服等穿戴情况,对不规范穿戴行为进行实时预警。

DetectObject

物体检测

检测输入图像中的物体。

DetectIPCObject

IPC图像目标检测

可以检测到输入图像中的目标物体,例如人、车辆、宠物等。

DetectVideoIPCObject

IPC视频目标检测

可以检测到输入视频中的目标物体,例如人、车辆、宠物等。

视频理解(videorecog)

视频理解类目能力开通链接:立即开通

分类

能力接口名

能力中文名

说明

视频理解

GenerateVideoCover

视频封面

输入一段视频通过算法解析视频,把具有吸引力的内容进行输出,可输出多个视频封面。

DetectVideoShot

镜头解析

对输入的视频按镜头切分,返回切分点。

UnderstandVideoContent

视频内容理解

可以分析出视频中的明星、素人、游戏画面等各种元素。

RecognizeVideoCastCrewList

视频OCR

可以识别视频中的文本,可涵盖新闻、影视剧、娱乐、体育等多场景的中英文、繁简体、比分等识别,支持普通字幕、定常字幕、滚动字幕、部分自然场景文字、竖排文字及艺术字等多种类型。

SplitVideoParts

视频拆条

可以多维度对视频进行分析理解,将视频拆解为多个片段并返回每个片段的边界时间点(不返回具体视频片段),并对片段进行摘要描述,拆分维度包含镜头和主题等。

EvaluateVideoQuality

视频画质评估

可以评估输入视频的质量,包含基础质量评估和瑕疵质量评估两种模式,并输出质量评估综合报告和详细报告。

视频分割(videoseg)

视频分割类目能力开通链接:立即开通

分类

能力接口名

能力中文名

说明

视频分割

SegmentVideoBody

视频人像分割

对输入的视频进行解析,将人像区域的mask(掩模)作为视频序列返回。

视频生产(videoenhan)

视频生产类目能力开通链接:立即开通

分类

能力接口名

能力中文名

说明

视频摘要

AbstractFilmVideo

影视视频摘要

输入影视视频,通过算法进行视频解析,按照指定时长输出视频摘要。

AbstractEcommerceVideo

电商视频摘要

输入电商视频,通过算法进行视频解析,按照指定的时长输出视频摘要。

视频编辑

EraseVideoSubtitles

视频字幕擦除

擦除视频中的“标准”字幕,如电影电视剧中下方的白色字幕。

EraseVideoLogo

视频标志擦除

擦除视频中的常见标志,如台标、互联网平台logo等。

ChangeVideoSize

视频画幅变换

可以对输入视频进行智能裁剪和填充,输出任意分辨率的视频。

MergeVideoFace

通用视频人脸融合

可以将视频中某个指定的人脸,融合进另一个人的人脸特征,达到换脸的感官效果。

MergeVideoModelFace

模板视频人脸融合

可以将视频中检测到的最大人脸,融合进另一个人的人脸特征,达到换脸的感官效果。

AddFaceVideoTemplate

视频人脸融合模板增加

可以将已通过内容审核的包含人脸的视频,作为视频人脸融合的模板,供模板视频人脸融合功能使用。

QueryFaceVideoTemplate

视频人脸融合模板查询

可以查询用户已添加过的视频人脸模板。

DeleteFaceVideoTemplate

视频人脸融合模板删除

可以删除用户已添加过的模板视频。

GenerateHumanAnimeStyleVideo

视频人像卡通化

可以根据输入的人像视频进行卡通化转换,返回风格化后的视频结果。

视频增强

EnhanceVideoQuality

视频综合增强

基于AI深度学习算法,可以对输入的SDR视频进行插帧、超分辨率SR、SDR转HDR综合增强处理。

SuperResolveVideo

视频超分辨

将输入视频放大2倍尺寸输出,并基于推断细节增强输出视频画质,输出视频为h264编码、MP4格式。

InterpolateVideoFrame

视频插帧

基于深度学习的帧率上变换,通过插帧网络合成任意时刻的视频帧,从而优化解决视频中卡顿、抖动等画质问题。

AdjustVideoColor

视频校色

输入一组视频,输出一组调色后的视频。可根据视频之间的相似性进行关联调色。

ToneSdrVideo

视频SDR调色

基于内容语义识别与内容颜色,自动优化SDR视频的颜色,提升视频色彩质量。

ConvertHdrVideo

SDR转HDR

可将普通SDR视频转化为HDR视频,色域提升至BT2020,色深提升至10bit,亮度提升至最高1000nit,以提供更高品质的视频内容。

ReduceVideoNoise

视频降噪

对视频中的各类噪声信息进行降低,同时保持帧间的稳定性,避免处理后的视频出现闪烁和抖动问题。

EnhancePortraitVideo

视频人像增强

对视频中的人脸进行清晰度提升,显著增加面部细节和质感,同时通过人脸质量评估算法与动态调整融合系数,保持增强后人脸的自然和真实。

视频生成

GenerateVideo

通用视频生成

可以根据输入的原始视频,智能生成营销短视频。

自学习工具(viapi_regen)

自学习类目能力开通链接:立即开通

说明

自学习服务将于2024年9月30日起停止提供服务,已开通服务的老用户可以在2024年9月30日前通过视觉智能开放平台控制台正常访问,新用户将不再支持开通该服务。如需继续使用类似自学习的服务,请前往人工智能平台PAI重新训练模型。

  • 如果您使用的是自学习新版,请参见服务调用参考

  • 如果您使用的是自学习旧版,请参见以下API列表:

    名称

    能力接口名

    能力中文名

    说明

    生产空间

    CreateWorkspace

    创建生产空间

    通过选择生产空间类型,输入空间名称和空间描述创建新的生产空间。

    UpdateWorkspace

    更新生产空间

    根据生产空间ID更新生产空间的名称和描述。

    ListWorkspaces

    生产空间列表

    根据RegionID查看区域下的生产空间详细数据。

    GetWorkspace

    获得工作空间

    根据工作空间ID查看工作空间的详细情况。

    DeleteWorkspace

    删除生产空间

    根据生产空间ID删除生产空间。

    数据集

    CreateDataset

    创建数据集

    通过生产空间ID,创建生产空间下的新数据集。

    UpdateDataset

    更新数据集

    根据数据集ID更新数据集的名称和描述。

    ListDatasets

    数据集列表

    根据生产空间ID查看空间下数据集列表信息,分页展示。

    GetDataset

    获得数据集

    根据数据集ID查看数据集的详细情况。

    DeleteDataset

    删除数据集

    根据数据集ID删除数据集。

    ListDatasetDatas

    数据集数据列表

    通过数据ID查看数据集详细数据。

    SetDatasetUserOssPath

    使用OSS路径上传数据集

    使用用户指定的OSS路径,上传其中的文件。

    DownloadFileNameList

    下载数据集文件名称列表

    根据输入参数,下载对应的数据集文件名称列表。

    DownloadDataset

    下载数据集签名路径列表

    根据输入参数,下载相应的数据集签名OSS路径名称列表(有效期为七天)。

    标注集

    CreateLabelset

    创建标注集

    通过数据集ID,为此数据集创建新的标注。

    UpdateLabelset

    更新标注集

    根据标注集ID更新标注集的名称和描述。

    ListLabelsets

    标注集列表

    根据数据集ID查看数据集下标注集详细数据。

    ListLabelsetDatas

    标注集数据列表

    通过标注ID查看标注集详细数据。

    GetLabelset

    获得标注

    根据标注ID查看标注集的详细情况。

    GetLabelDetail

    获取标注标签详情

    统计标注的标签以及数量。

    DeleteLabelset

    删除标注

    根据标注ID删除标注集。

    DeleteLabelsetData

    删除标注集内的数据

    在标注数据查看列表页删除单行数据。

    DownloadLabelFile

    下载标注文件

    根据标注ID下载标注文件。

    GetDiffCountLabelsetAndDataset

    获取数据集和标注集的数量差

    标注完成后二次点击标注的时候获取数据集和标注集的数量差。

    CreateTagTask

    创建标注任务

    当前标注任务标注成功后,单独对数据集进行新增数据,可调用此接口进行继续标注,不需要重新创建新的标注任务。

    CheckDatasetOssBucketCORS

    检查用户OSS Bucket的跨域规则

    通过标注集ID,检查对应数据集所使用的用户OSS Bucket的跨域规则是否满足要求。

    训练管理

    CreateTrainTask

    创建训练任务

    通过生产空间ID,输入名称和描述,选择数据集、标注和训练模式,创建在此生产空间下的新训练任务。

    UpdateTrainTask

    更新训练任务

    根据训练任务ID更新对应训练任务的名称、描述以及高级参数。

    ListTrainTasks

    训练任务列表

    通过生产空间ID查看此空间下训练任务详细数据。

    DeleteTrainTask

    删除训练任务

    根据训练任务ID删除训练任务。

    GetTrainTask

    获得训练任务

    根据训练任务ID查看训练任务的详细情况。

    GetTrainModel

    获取训练模型

    通过训练任务ID,获取训练模型。

    GetTrainTaskEstimatedTime

    获取训练任务剩余时间

    根据训练任务ID查看此训练任务的剩余时间。

    StartTrainTask

    开启训练任务

    根据训练任务ID开启未训练的训练任务。

    StopTrainTask

    停止训练任务接口

    根据训练任务ID停止正在训练中的训练任务。

    服务管理

    CreateService

    创建服务

    通过训练任务ID,输入服务名称和接口地址发布新服务。

    UpdateService

    更新服务

    根据服务ID修改对应服务名称。

    ListServices

    服务数据列表

    通过空间ID查看服务数据详细数据。

    GetService

    获取服务

    通过服务ID,查看服务详情。

    DeleteService

    删除服务

    根据服务ID删除服务。

    DebugService

    请求服务获取结果

    上传图片,调用服务,返回运行结果和置信率。

    GetServiceInvoke

    获取服务调用量

    根据输入参数,获取相应服务在某个时间段内的调用量情况。

    GetServiceQps

    获取服务调用QPS情况

    根据输入参数,获取相应服务在某个时间段内的QPS情况。

    StartService

    启动服务

    通过服务ID,调用阿里云EAS接口,启动服务,并锁定服务资源。

    StopService

    停止服务

    通过服务ID,调用阿里云EAS接口,停止服务,并结算库存。

    DeleteDataReflowData

    删除回流数据

    根据输入参数,删除相应的回流数据。

    ListDataReflowDatas

    回流数据列表

    根据输入参数,查询当前服务的回流数据。

    DisableDataReflow

    关闭数据回流

    根据输入参数,关闭相应服务的数据回流。

    EnableDataReflow

    开启数据回流

    根据输入参数,开启相应服务的数据回流。

    ExportDataReflowDataList

    导出回流数据

    根据输入参数,导出相应的回流数据。

    算法调用

    CustomizeClassifyImage

    自学习分类

    根据输入的图像,输出图像中物体的分类。

    CustomizeDetectImage

    自学习检测

    根据输入的图像,输出图像中物体的位置和分类。

    CustomizeInstanceSegmentImage

    自学习分割

    根据输入的图像,输出图像中物体的轮廓和分类。