全部API接口的功能分类与说明-视觉智能开放平台-阿里云

本文主要介绍涉及该产品的所有API接口及介绍。

阿里云视觉智能开放平台的OpenAPI使用RPC风格的签名验证机制，确保请求的安全性。您可通过官方提供的请求签名流程文档了解签名的具体步骤。为了便于使用，阿里云视觉智能开放平台提供了针对多种编程语言的SDK，您可以直接下载并使用这些SDK来调用平台提供的OpenAPI，无需深入关注背后的技术实现。如果已有SDK不满足特定需求，您也可以选择进行自行签名来对接API。

在使用API之前，请确保已经设置了账号和访问密钥（AccessKey）。AccessKey是调用API进行身份验证的凭证，对保障账号安全至关重要。由于在客户端直接使用AccessKey ID和AccessKey Secret存在安全风险，我们建议在服务器端集成这些凭证。如果需要在客户端使用API，可以使用Security Token Service（STS）生成的临时凭证进行授权，从而安全地调用服务。

关于STS的使用和获取方法，详细信息可参见AssumeRole接口说明。若需创建及管理AccessKey，请参见创建AccessKey。

请注意，API能力的使用是基于类目授权的。当您开通一个AI类目时，将获得该类目下所有AI能力的调用权限。

人脸人体（facebody）

人脸人体类目能力开通链接：立即开通

分类	能力接口名	能力中文名	说明
人脸检测	DetectFace	人脸检测与五官定位	识别图像中是否有人脸，进行人脸检测后返回检测到的人脸矩形框坐标。
人脸属性	RecognizeExpression	表情识别	在人脸检测基础上，识别各个检测人脸的性别（男或女）、年龄、表情（笑或不笑）、眼镜（戴或不戴）四种属性。
人脸属性	RecognizeFace	人脸属性识别	检测和识别输入图片中人脸的表情。表情种类为：neutral（中性）, happiness（高兴）, surprise（惊讶）, sadness（伤心）, anger（生气）, disgust（厌恶）, fear（害怕）。
人脸编辑	FaceBeauty	人脸美颜	对图像中的人脸进行美颜，包括磨皮、美白、去除黑眼圈、法令纹等。
	EnhanceFace	人脸修复增强	对输入的人脸图像进行检测，然后对人脸进行裁剪、对齐、细节增强，最后再融合回原图。
	BlurFace	人脸信息脱敏	对输入图像中的人脸进行模糊处理，输出脱敏后的图像。
	GenerateHumanAnimeStyle	人物动漫化	可以将一张人物图像进行转换处理，生成二次元卡通形象，并返回卡通化后的结果图像。
	GenerateHumanSketchStyle	人像素描风格化	可以对一张人物图像自动裁剪其头部区域，生成大头照下的素描画效果。
	LiquifyFace	智能瘦脸	输入一张人物图像，自动检测并分析人脸五官特征，生成脸部五官调整瘦脸后的图像。当图像中包含多人，最多可处理3张人脸。
	RetouchSkin	智能美肤	输入一张人物图像，自动进行脸部区域匀肤、去瑕疵（痘、痘印、雀斑等），以及全身皮肤区域美白，同时尽可能的保留皮肤质感。支持多人图像处理。
	MergeImageFace	图像人脸融合	可以对人物图像中头部以外区域（脖子、躯干和四肢等）进行优化，使其出呈现更符合大众审美的体态，让人体看起来更高挑、苗条和精致，同时保持身体线条流畅、弧度自然、力度适中。支持多人和不同体态（全身、半身）的处理。
	AddFaceImageTemplate	图像人脸融合模板增加	可以将已通过内容审核的人脸图像，作为人脸融合的模板，供图像人脸融合功能使用。
	QueryFaceImageTemplate	图像人脸融合模板查询	可以查询已创建的人脸模板。
	DeleteFaceImageTemplate	图像人脸融合模板删除	可以删除已创建的人脸模板。
人体识别	BodyPosture	人体姿态关键点	获取手势的二十一个关键点信息。
	RecognizeAction	动作行为识别	检测图像中的人体。
	DetectBodyCount	人体计数	识别视频和图像中的人体动作行为，并返回识别后的行为类别。当前可以识别的行为类别包括：举手、吃喝、吸烟、打电话、玩手机、趴桌睡觉、跌倒。
	DetectPedestrian	人体检测	识别输入图片中的人脸数量。
	PedestrianDetectAttribute	人体结构化属性	检测图片中人体的属性，具体功能包括人体检测以及属性预估。例如：性别，年龄，朝向，帽子，眼镜，包，衣服，颜色等。
	MonitorExamination	线上监考	对线上考试的考生行为进行识别，支持屏幕聊天工具检测和考生状态检测。
	ExtractFingerPrint	指纹提取	可以对输入的一张手指拍照图像自动定位其手指区域，并生成二值化黑白按压式指纹图像。
活体检测	DetectVideoLivingFace	视频活体检测	检测输入视频中的人脸来自直接拍摄还是翻拍。
	DetectLivingFace	人脸活体检测	检测输入图片中的活体对象（主要是人脸）来自直接拍摄或者翻拍。活体判断的前提条件是图片中有人脸。
	DetectInfraredLivingFace	红外人脸活体检测	可以检测红外图片中的人脸是否为来自认证设备端的近距离裸拍活体人脸对象，可广泛应用在红外设备人脸实时采集场景，满足红外人脸注册认证的真实性和安全性要求，判断的前置条件是红外图像中有人脸。
人脸识别	RecognizePublicFace	公众人物识别	识别图片中的一个或多个公众人脸信息。
	DetectCelebrity	明星识别	识别图像中的明星人物。
	CompareFace	人脸比对1:1	基于输入的两张图片，可以检测两张图片中的人脸，并对两张图片中的最大人脸进行比较，判断是否是同一人。
	CompareFaceWithMask	口罩人脸比对1:1	基于您输入的两张图片，分别挑选两张图片中的最大人脸进行比较，判断是否为同一人。融合戴口罩生成、抗遮挡关键点定位、抗遮挡特征注意力三大技术优化，实现戴口罩时的极速人脸识别。
	SearchFace	人脸搜索	根据输入图片，在数据库中搜索相似的人脸图片数据。
	CreateFaceDb	创建人脸数据库	创建人脸数据库。
	ListFaceDbs	查询人脸数据库列表	查看人脸数据库列表。
	AddFaceEntity	添加人脸样本	向人脸数据库中添加人脸样本数据。
	GetFaceEntity	查询人脸样本	查询人脸数据库中的人脸样本数据。
	ListFaceEntities	查询人脸样本列表	查询人脸数据库中的人脸样本列表。
	UpdateFaceEntity	更新人脸样本	更新人脸数据库中的人脸样本数据。
	AddFace	添加人脸数据	为指定数据库添加人脸数据。
	BatchAddFaces	批量添加人脸数据	批量添加人脸数据
	DeleteFace	删除人脸	删除指定数据库中的人脸图片信息。
	DeleteFaceEntity	删除人脸样本	删除人脸数据库中的人脸样本数据。
	DeleteFaceDb	删除数据库	删除指定的人脸数据库。
金融级人脸检测	ExecuteServerSideVerification	人脸核身服务端	可以在服务端依据被验证的人名和身份证号码，请求身份验证的用户图像信息。
	GenRealPersonVerificationToken	核身认证移动端请求	可以在移动端依据被验证的人名和身份证号码，请求身份验证的用户图像信息。
	GetRealPersonVerificationResult	核身认证移动端查询	可以确认在证件合法且姓名匹配后，返回身份验证的用户图像信息。

文字识别（ocr）

文字识别类目能力开通链接：立即开通

分类	能力接口名	能力中文名	说明
个人类卡证识别	RecognizeIdentityCard	身份证识别	识别二代身份证关键字段内容，关键字段包括：姓名、性别、民族、身份证号、出生日期、地址信息、有效起始时间、签发机关，同时可输出身份证区域位置和人脸位置信息。
	RecognizeBankCard	银行卡识别	输入主流银行卡图像，输出3个信息，包括：发卡行、银行卡号、有效日期。
	RecognizeQrCode	二维码识别	识别图像中是否含有二维码信息，输出图像中二维码包含的文本信息（每个二维码对应的URL或文本），可支持图像中含有多个二维码识别。
资产类证件识别	RecognizeBusinessLicense	营业执照识别	识别营业执照关键字段内容，包括：公司地址、营业范围、注册资本、注册日期、公司法人、公司名称、注册号、公司类型、公司营业期限日期，同时可输出营业执照上二维码、印章位置。
通用文字类识别	RecognizeCharacter	通用文字识别	识别图像中文字内容和文字区域坐标，适用于多场景图像文字识别。
	RecognizeTable	表格识别	自动识别表格位置、表格内容信息。适用于黑色的，横线、竖线都齐全的表格中内容识别。
	RecognizePdf	PDF识别	可以对PDF上的文字进行结构化识别。
车辆交通类识别	RecognizeDrivingLicense	行驶证识别	识别行驶证首页和副页关键字段内容，输出品牌型号、车辆类型、车牌号码、检验记录、核定载质量、核定载人数等21个关键字段信息。
	RecognizeVINCode	VIN码识别	识别车辆VIN码，输出车辆VIN码数值。
	RecognizeDriverLicense	驾驶证识别	识别驾驶证首页和副页关键字段内容，包括：档案编号、姓名、有效期时长、性别、发证日期、驾驶证号、驾驶证准驾车型、有效期开始时间、地址，共9个关键字段信息。
	RecognizeLicensePlate	车牌识别	准确识别出图像中车牌位置，输出车牌位置坐标、车牌类型、车牌号码、车牌号码置信度、车牌置信度，共5个关键字段信息。
行业票证类识别	RecognizeTaxiInvoice	出租车发票识别	准确识别出全国各大城市出租车发票在图像中的位置，支持出租车发票结构化识别，输出发票号码、代码、车号、日期、时间、金额，共6个关键字段信息。
	RecognizeVATInvoice	增值税发票识别	可以识别增值税发票（电子发票和纸质发票）关键字段内容，包括：校验码、复核人、开票人、发票代码、收款人等。
	RecognizeTrainTicket	火车票识别	支持火车票结构化识别，输出乘车时间、始发站、目的站、座位席别、乘车人姓名、车次号、票价、车厢及座次号，共8个关键字段信息。
	RecognizeQuotaInvoice	定额发票识别	可以对定额发票上的发票号码、发票代码、发票金额进行结构化识别。
	RecognizeTicketInvoice	增值税发票卷票识别	支持对卷票上包括价税合计、发票代码、发票号码、合计税额、合计金额、密码区、开票日期、税率、购买方识别号、销售方识别号等进行结构化识别。

商品理解（goodstech）

商品理解类目能力开通链接：立即开通

分类	能力接口名	能力中文名	说明
商品理解	ClassifyCommodity	商品分类	识别图像中的商品分类，返回商品类目、置信度等信息。

内容审核（imageaudit）

内容审核类目能力开通链接：立即开通

分类	能力接口名	能力中文名	说明
内容审核	ScanText	文本内容安全	支持检测的场景包括：文字垃圾内容识别、文字广告内容识别、文字敏感内容识别、文字暴恐内容识别、文字辱骂内容识别、文字鉴黄内容识别、文字灌水内容识别、文字违禁内容识别。
内容审核	ScanImage	图片内容安全	支持检测的场景包括：图片智能鉴黄、图片敏感内容识别、图片风险人物识别、图片垃圾广告识别、图片不良场景识别、图片Logo识别。

图像识别（imagerecog）

图像识别类目能力开通链接：立即开通

分类	能力接口名	能力中文名	说明
图像打标	TaggingImage	通用图像打标	识别图像中的主体内容并打上类型标签，支持数千个内容标签，覆盖常见物体品类。
图像打标	TaggingAdImage	广告素材分析	可以对素材图片中的人物（明星、素人、CG人物）、场景等打上标签信息，可支持数千个内容标签，覆盖范围广。
基础识别	RecognizeImageColor	颜色识别	对输入图的颜色信息进行分析，给出颜色值（RGB形式和HEX格式）与对应的占比信息。
	DetectImageElements	元素识别	识别输入图中所包含的元素，用矩形框标注出其位置，并区分其对应的基本类型（人/物、修饰、文案）。
	RecognizeImageStyle	风格识别	对输入图的风格类型进行分析，给出可能的风格标签。例如：视觉风格：中国风语义风格：典雅
	ClassifyingRubbish	垃圾分类识别	对图片中的垃圾进行分类，并给出具体的物品名称。
	EvaluateCertificateQuality	证件照质量审核	可以识别拍摄的证件照片是否存在质量问题，且有哪些质量问题。
场景识别	RecognizeScene	场景识别	识别图像所处的场景环境，支持数十种常见场景，如天空、草地等。

图像生产（imageenhan）

图像生产类目能力开通链接：立即开通

分类	能力接口名	能力中文名	说明
图像生成	GenerateSuperResolutionImage	生成式图像超分	基于生成式大模型，在放大图像分辨率的同时，显著提升图像细节丰富度，使图像变得更加清晰。
	MakeSuperResolutionImage	图像超分	将输入图放大四倍，同时基于推断出的细节保持结果图像的清晰度。
	EnhanceImageColor	图像色彩增强	对输入图片的饱和度、亮度以及肤色等进行最优调整。
	ColorizeImage	图片上色	对黑白照片、黑白图像自动上色。
图像编辑	ChangeImageSize	图像裁剪	对输入图片进行指定尺寸变换，自动判断主体区域位置，使用最佳的裁剪方式对图片进行裁剪。
	IntelligentComposition	智能构图	对输入图像进行美学评估，智能输出bounding box，根据这些bounding box可以将原图裁剪成构图更好的图像。
	ImitatePhotoStyle	照图修图	将输入的参考图的光照、色彩等不影响原图结构的风格迁移至目标图。
	RemoveImageSubtitles	字幕擦除	擦除图片中的标准字幕。
	RemoveImageWatermark	图像标志擦除	擦除图片中的常见标志，如台标、互联网平台logo等。
	ImageBlindPicWatermark	图像隐形图片水印	图像盲水印算法，加/解析水印，添加内容包括图像logo和文字两种。
	ImageBlindCharacterWatermark	图像隐形文字水印	图像盲水印算法，加/解析水印，添加内容包括图像logo和文字两种。
	ErasePerson	图像人体擦除	可以擦除图像中指定区域的人像，并自动填充背景。
图像评分	AssessComposition	图像构图美学评分	检测输入图像，输出图像的构图美学评分。
	AssessExposure	图像曝光度评分	检测输入图像，输出图像的曝光度评分。
	AssessSharpness	图像清晰度评分	检测输入图像，输出图像的清晰度评分。

分割抠图（imageseg）

分割抠图类目能力开通链接：立即开通

分类	能力接口名	能力中文名	说明
人像分割	SegmentBody	人体分割	识别输入图像中的人体轮廓，与背景进行分离，返回分割后的前景人像图（4通道）。适用于单人或多人、复杂背景、各类人体姿态等场景。
	SegmentHead	头像分割	识别输入图像中的人脸轮廓，不包含脖子、耳朵、头发，返回仅人脸区域可视的透明图（4通道）。适用于单人或多人场景。
	SegmentHair	头发分割	识别输入图像中的头发轮廓，不含脖子、耳朵，返回仅头发区域可视的透明图（4通道），适用于单人或多人场景。
	SegmentSkin	皮肤分割	识别图片中的人物皮肤，并对图中人物的皮肤区域进行分割。
	SegmentHDBody	高清人体分割	自动识别图中人体轮廓，实现与背景进行分离，返回分割后的前景人像图。本功能适用于真人图片，不适用于卡通图片。
商品分割	SegmentCloth	服饰分割	对输入图像中的服饰进行像素级抠图，并返回抠图结果。
商品分割	SegmentCommodity	商品分割	识别输入图像中的商品轮廓，与背景进行分离，返回分割后的前景商品图（4通道）。适用于单商品或多商品、复杂背景等场景。
通用分割	SegmentCommonImage	通用分割	自动识别输入图像中的视觉中心主体轮廓，将主体作为前景擦除背景，返回分割后的前景主体图（4通道）。适用于人、动物、食物、物品等抠图场景。
	SegmentSky	天空分割	识别输入图像中的天空区域，与背景进行分离，返回分割后的前景区域图。
	SegmentFood	食品分割	对图片中的食品进行像素级抠图，并返回抠图结果。
	RefineMask	Mask精细化分割	对输入的图像与粗糙mask进行精细化处理，输出精细化mask。
	SegmentHDSky	天空高清分割	可以对输入图片中的天空进行像素级抠图，实现分割功能。
	SegmentHDCommonImage	通用高清分割	可以对图片中的主体进行分割，并输出对应的PNG格式透明图。
分割替换	ChangeSky	天空替换	将参考图的天空样式替换到目标图中，从而改变目标图的天空样式。

目标检测（objectdet）

目标检测类目能力开通链接：立即开通

分类	能力接口名	能力中文名
车辆检测	DetectVehicleICongestion	车辆拥堵检测	根据图片中的车辆，判断是否发生拥堵。
通用检测	DetectMainBody	主体检测	检测图像中的内容主体，返回该主体的区域位置/坐标信息。
	DetectWhiteBaseImage	白底图检测	检测图片背景是否为白底。
	DetectObject	物体检测	检测输入图像中的物体。
	DetectIPCObject	IPC图像目标检测	可以检测到输入图像中的目标物体，例如人、车辆、宠物等。
	DetectVideoIPCObject	IPC视频目标检测	可以检测到输入视频中的目标物体，例如人、车辆、宠物等。

视频理解（videorecog）

视频理解类目能力开通链接：立即开通

分类	能力接口名	能力中文名	说明
视频理解	GenerateVideoCover	视频封面	输入一段视频通过算法解析视频，把具有吸引力的内容进行输出，可输出多个视频封面。
	DetectVideoShot	镜头解析	对输入的视频按镜头切分，返回切分点。
	RecognizeVideoCastCrewList	视频OCR	可以识别视频中的文本，可涵盖新闻、影视剧、娱乐、体育等多场景的中英文、繁简体、比分等识别，支持普通字幕、定常字幕、滚动字幕、部分自然场景文字、竖排文字及艺术字等多种类型。
	SplitVideoParts	视频拆条	可以多维度对视频进行分析理解，将视频拆解为多个片段并返回每个片段的边界时间点（不返回具体视频片段），并对片段进行摘要描述，拆分维度包含镜头和主题等。
	EvaluateVideoQuality	视频画质评估	可以评估输入视频的质量，包含基础质量评估和瑕疵质量评估两种模式，并输出质量评估综合报告和详细报告。

视频分割（videoseg）

视频分割类目能力开通链接：立即开通

分类	能力接口名	能力中文名	说明
视频分割	SegmentVideoBody	视频人像分割	对输入的视频进行解析，将人像区域的mask（掩模）作为视频序列返回。

视频生产（videoenhan）

视频生产类目能力开通链接：立即开通

分类	能力接口名	能力中文名	说明
视频编辑	EraseVideoSubtitles	视频字幕擦除	擦除视频中的“标准”字幕，如电影电视剧中下方的白色字幕。
	EraseVideoLogo	视频标志擦除	擦除视频中的常见标志，如台标、互联网平台logo等。
	ChangeVideoSize	视频画幅变换	可以对输入视频进行智能裁剪和填充，输出任意分辨率的视频。
	MergeVideoFace	通用视频人脸融合	可以将视频中某个指定的人脸，融合进另一个人的人脸特征，达到换脸的感官效果。
	MergeVideoModelFace	模板视频人脸融合	可以将视频中检测到的最大人脸，融合进另一个人的人脸特征，达到换脸的感官效果。
	AddFaceVideoTemplate	视频人脸融合模板增加	可以将已通过内容审核的包含人脸的视频，作为视频人脸融合的模板，供模板视频人脸融合功能使用。
	QueryFaceVideoTemplate	视频人脸融合模板查询	可以查询用户已添加过的视频人脸模板。
	DeleteFaceVideoTemplate	视频人脸融合模板删除	可以删除用户已添加过的模板视频。
	GenerateHumanAnimeStyleVideo	视频人像卡通化	可以根据输入的人像视频进行卡通化转换，返回风格化后的视频结果。
视频增强	EnhanceVideoQuality	视频综合增强	基于AI深度学习算法，可以对输入的SDR视频进行插帧、超分辨率SR、SDR转HDR综合增强处理。
	SuperResolveVideo	视频超分辨	将输入视频放大2倍尺寸输出，并基于推断细节增强输出视频画质，输出视频为h264编码、MP4格式。
	InterpolateVideoFrame	视频插帧	基于深度学习的帧率上变换，通过插帧网络合成任意时刻的视频帧，从而优化解决视频中卡顿、抖动等画质问题。
	AdjustVideoColor	视频校色	输入一组视频，输出一组调色后的视频。可根据视频之间的相似性进行关联调色。
	EnhancePortraitVideo	视频人像增强	对视频中的人脸进行清晰度提升，显著增加面部细节和质感，同时通过人脸质量评估算法与动态调整融合系数，保持增强后人脸的自然和真实。
视频生成	GenerateVideo	通用视频生成	可以根据输入的原始视频，智能生成营销短视频。