本文主要介绍涉及该产品的所有API接口及介绍。
阿里云视觉智能开放平台的OpenAPI使用RPC风格的签名验证机制,确保请求的安全性。您可通过官方提供的请求签名流程文档了解签名的具体步骤。为了便于使用,阿里云视觉智能开放平台提供了针对多种编程语言的SDK,您可以直接下载并使用这些SDK来调用平台提供的OpenAPI,无需深入关注背后的技术实现。如果已有SDK不满足特定需求,您也可以选择进行自行签名来对接API。
在使用API之前,请确保已经设置了账号和访问密钥(AccessKey)。AccessKey是调用API进行身份验证的凭证,对保障账号安全至关重要。由于在客户端直接使用AccessKey ID和AccessKey Secret存在安全风险,我们建议在服务器端集成这些凭证。如果需要在客户端使用API,可以使用Security Token Service(STS)生成的临时凭证进行授权,从而安全地调用服务。
关于STS的使用和获取方法,详细信息可参见AssumeRole接口说明。若需创建及管理AccessKey,请参见创建AccessKey。
请注意,API能力的使用是基于类目授权的。当您开通一个AI类目时,将获得该类目下所有AI能力的调用权限。
创新专区(aigen)
人脸人体(facebody)
人脸人体类目能力开通链接:立即开通
分类 | 能力接口名 | 能力中文名 | 说明 |
人脸检测 | DetectFace | 识别图像中是否有人脸,进行人脸检测后返回检测到的人脸矩形框坐标。 | |
人脸属性 | RecognizeExpression | 在人脸检测基础上,识别各个检测人脸的性别(男或女)、年龄、表情(笑或不笑)、眼镜(戴或不戴)四种属性。 | |
RecognizeFace | 检测和识别输入图片中人脸的表情。表情种类为:neutral(中性), happiness(高兴), surprise(惊讶), sadness(伤心), anger(生气), disgust(厌恶), fear(害怕)。 | ||
人脸编辑 | FaceBeauty | 对图像中的人脸进行美颜,包括磨皮、美白、去除黑眼圈、法令纹等。 | |
EnhanceFace | 对输入的人脸图像进行检测,然后对人脸进行裁剪、对齐、细节增强,最后再融合回原图。 | ||
FaceMakeup | 人脸美妆功能模拟彩妆,通过添加整妆彩妆素材,进一步提升人脸美化效果。 | ||
FaceTidyup | 美型是指对人脸的轮廓和五官进行调整。 | ||
BlurFace | 对输入图像中的人脸进行模糊处理,输出脱敏后的图像。 | ||
GenerateHumanAnimeStyle | 可以将一张人物图像进行转换处理,生成二次元卡通形象,并返回卡通化后的结果图像。 | ||
GenerateHumanSketchStyle | 可以对一张人物图像自动裁剪其头部区域,生成大头照下的素描画效果。 | ||
LiquifyFace | 输入一张人物图像,自动检测并分析人脸五官特征,生成脸部五官调整瘦脸后的图像。当图像中包含多人,最多可处理3张人脸。 | ||
RetouchSkin | 输入一张人物图像,自动进行脸部区域匀肤、去瑕疵(痘、痘印、雀斑等),以及全身皮肤区域美白,同时尽可能的保留皮肤质感。支持多人图像处理。 | ||
MergeImageFace | 可以对人物图像中头部以外区域(脖子、躯干和四肢等)进行优化,使其出呈现更符合大众审美的体态,让人体看起来更高挑、苗条和精致,同时保持身体线条流畅、弧度自然、力度适中。支持多人和不同体态(全身、半身)的处理。 | ||
AddFaceImageTemplate | 可以将已通过内容审核的人脸图像,作为人脸融合的模板,供图像人脸融合功能使用。 | ||
QueryFaceImageTemplate | 可以查询已创建的人脸模板。 | ||
DeleteFaceImageTemplate | 可以删除已创建的人脸模板。 | ||
人体识别 | BodyPosture | 获取手势的二十一个关键点信息。 | |
HandPosture | 获取人体的十八个关键点信息。 | ||
RecognizeAction | 检测图像中的人体。 | ||
DetectBodyCount | 识别视频和图像中的人体动作行为,并返回识别后的行为类别。当前可以识别的行为类别包括:举手、吃喝、吸烟、打电话、玩手机、趴桌睡觉、跌倒。 | ||
DetectPedestrian | 识别输入图片中的人脸数量。 | ||
PedestrianDetectAttribute | 检测图片中人体的属性,具体功能包括人体检测以及属性预估。例如:性别,年龄,朝向,帽子,眼镜,包,衣服,颜色等。 | ||
DetectPedestrianIntrusion | 基于深度学习算法,检测视频监测周界或区域是否有人员入侵。 | ||
RecognizeHandGesture | 可以识别图片中的手势动作等。 | ||
MonitorExamination | 对线上考试的考生行为进行识别,支持屏幕聊天工具检测和考生状态检测。 | ||
ExtractFingerPrint | 可以对输入的一张手指拍照图像自动定位其手指区域,并生成二值化黑白按压式指纹图像。 | ||
活体检测 | DetectVideoLivingFace | 检测输入视频中的人脸来自直接拍摄还是翻拍。 | |
DetectLivingFace | 检测输入图片中的活体对象(主要是人脸)来自直接拍摄或者翻拍。活体判断的前提条件是图片中有人脸。 | ||
DetectInfraredLivingFace | 可以检测红外图片中的人脸是否为来自认证设备端的近距离裸拍活体人脸对象,可广泛应用在红外设备人脸实时采集场景,满足红外人脸注册认证的真实性和安全性要求,判断的前置条件是红外图像中有人脸。 | ||
人脸识别 | RecognizePublicFace | 识别图片中的一个或多个公众人脸信息。 | |
DetectCelebrity | 识别图像中的明星人物。 | ||
CompareFace | 基于输入的两张图片,可以检测两张图片中的人脸,并对两张图片中的最大人脸进行比较,判断是否是同一人。 | ||
CompareFaceWithMask | 基于您输入的两张图片,分别挑选两张图片中的最大人脸进行比较,判断是否为同一人。融合戴口罩生成、抗遮挡关键点定位、抗遮挡特征注意力三大技术优化,实现戴口罩时的极速人脸识别。 | ||
SearchFace | 根据输入图片,在数据库中搜索相似的人脸图片数据。 | ||
CreateFaceDb | 创建人脸数据库。 | ||
ListFaceDbs | 查看人脸数据库列表。 | ||
AddFaceEntity | 向人脸数据库中添加人脸样本数据。 | ||
GetFaceEntity | 查询人脸数据库中的人脸样本数据。 | ||
ListFaceEntities | 查询人脸数据库中的人脸样本列表。 | ||
UpdateFaceEntity | 更新人脸数据库中的人脸样本数据。 | ||
AddFace | 为指定数据库添加人脸数据。 | ||
BatchAddFaces | 批量添加人脸数据 | ||
DeleteFace | 删除指定数据库中的人脸图片信息。 | ||
DeleteFaceEntity | 删除人脸数据库中的人脸样本数据。 | ||
DeleteFaceDb | 删除指定的人脸数据库。 | ||
金融级人脸检测 | ExecuteServerSideVerification | 可以在服务端依据被验证的人名和身份证号码,请求身份验证的用户图像信息。 | |
GenRealPersonVerificationToken | 可以在移动端依据被验证的人名和身份证号码,请求身份验证的用户图像信息。 | ||
GetRealPersonVerificationResult | 可以确认在证件合法且姓名匹配后,返回身份验证的用户图像信息。 |
文字识别(ocr)
文字识别类目能力开通链接:立即开通
分类 | 能力接口名 | 能力中文名 | 说明 |
个人类卡证识别 | RecognizeIdentityCard | 识别二代身份证关键字段内容,关键字段包括:姓名、性别、民族、身份证号、出生日期、地址信息、有效起始时间、签发机关,同时可输出身份证区域位置和人脸位置信息。 | |
RecognizeBankCard | 输入主流银行卡图像,输出3个信息,包括:发卡行、银行卡号、有效日期。 | ||
RecognizeQrCode | 识别图像中是否含有二维码信息,输出图像中二维码包含的文本信息(每个二维码对应的URL或文本),可支持图像中含有多个二维码识别。 | ||
资产类证件识别 | RecognizeBusinessLicense | 识别营业执照关键字段内容,包括:公司地址、营业范围、注册资本、注册日期、公司法人、公司名称、注册号、公司类型、公司营业期限日期,同时可输出营业执照上二维码、印章位置。 | |
通用文字类识别 | RecognizeCharacter | 识别图像中文字内容和文字区域坐标,适用于多场景图像文字识别。 | |
RecognizeTable | 自动识别表格位置、表格内容信息。适用于黑色的,横线、竖线都齐全的表格中内容识别。 | ||
RecognizePdf | 可以对PDF上的文字进行结构化识别。 | ||
RecognizeVideoCharacter | 可以实现对输入视频的结构化处理,返回对应的文字内容、文字区域坐标及时间等信息。 | ||
车辆交通类识别 | RecognizeDrivingLicense | 识别行驶证首页和副页关键字段内容,输出品牌型号、车辆类型、车牌号码、检验记录、核定载质量、核定载人数等21个关键字段信息。 | |
RecognizeVINCode | 识别车辆VIN码,输出车辆VIN码数值。 | ||
RecognizeDriverLicense | 识别驾驶证首页和副页关键字段内容,包括:档案编号、姓名、有效期时长、性别、发证日期、驾驶证号、驾驶证准驾车型、有效期开始时间、地址,共9个关键字段信息。 | ||
RecognizeLicensePlate | 准确识别出图像中车牌位置,输出车牌位置坐标、车牌类型、车牌号码、车牌号码置信度、车牌置信度,共5个关键字段信息。 | ||
行业票证类识别 | RecognizeTaxiInvoice | 准确识别出全国各大城市出租车发票在图像中的位置,支持出租车发票结构化识别,输出发票号码、代码、车号、日期、时间、金额,共6个关键字段信息。 | |
RecognizeVATInvoice | 可以识别增值税发票(电子发票和纸质发票)关键字段内容,包括:校验码、复核人、开票人、发票代码、收款人等。 | ||
RecognizeTrainTicket | 支持火车票结构化识别,输出乘车时间、始发站、目的站、座位席别、乘车人姓名、车次号、票价、车厢及座次号,共8个关键字段信息。 | ||
RecognizeQuotaInvoice | 可以对定额发票上的发票号码、发票代码、发票金额进行结构化识别。 | ||
RecognizeTicketInvoice | 支持对卷票上包括价税合计、发票代码、发票号码、合计税额、合计金额、密码区、开票日期、税率、购买方识别号、销售方识别号等进行结构化识别。 |
内容审核(imageaudit)
图像识别(imagerecog)
图像识别类目能力开通链接:立即开通
分类 | 能力接口名 | 能力中文名 | 说明 |
图像打标 | TaggingImage | 识别图像中的主体内容并打上类型标签,支持数千个内容标签,覆盖常见物体品类。 | |
TaggingAdImage | 可以对素材图片中的人物(明星、素人、CG人物)、场景等打上标签信息,可支持数千个内容标签,覆盖范围广。 | ||
基础识别 | RecognizeImageColor | 对输入图的颜色信息进行分析,给出颜色值(RGB形式和HEX格式)与对应的占比信息。 | |
DetectImageElements | 识别输入图中所包含的元素,用矩形框标注出其位置,并区分其对应的基本类型(人/物、修饰、文案)。 | ||
RecognizeImageStyle | 对输入图的风格类型进行分析,给出可能的风格标签。例如:
| ||
ClassifyingRubbish | 对图片中的垃圾进行分类,并给出具体的物品名称。 | ||
EvaluateCertificateQuality | 可以识别拍摄的证件照片是否存在质量问题,且有哪些质量问题。 | ||
RecognizeFood | 可以识别出图片中的菜品类别名称和热量。 | ||
场景识别 | RecognizeScene | 识别图像所处的场景环境,支持数十种常见场景,如天空、草地等。 |
图像生产(imageenhan)
图像生产类目能力开通链接:立即开通
分类 | 能力接口名 | 能力中文名 | 说明 |
图像生成 | GenerateImageWithText | 由于产品业务和安全合规调整,文生图、图文生图服务将于2023年06月19日起停止更新,后续不再支持新用户开通接入服务。同时,文生图、图文生图API服务计划于2023年09月30日完成服务下线,请老用户提前做好服务迁移计划。2023年06月19日之后,会继续支持老用户,老用户如果对文生图、图文生图API服务使用有疑问,可通过搜索钉钉群(23109592)加入阿里云视觉智能开放平台咨询群联系我们。 | |
GenerateImageWithTextAndImage | |||
GenerateSuperResolutionImage | 基于生成式大模型,在放大图像分辨率的同时,显著提升图像细节丰富度,使图像变得更加清晰。 | ||
图像增强 | ExtendImageStyle | 将输入图按照指定的风格图像进行风格的迁移,使得图像的色彩、笔触等视觉风格发生转化。 | |
RecolorImage | 将输入图自动或根据指定色板进行色彩转换,同时保证视觉热点区域避免不正常拓色。 | ||
MakeSuperResolutionImage | 将输入图放大四倍,同时基于推断出的细节保持结果图像的清晰度。 | ||
GenerateDynamicImage | 对输入图像中包括的天空区域及人物头发区域进行静转动处理,得到微动的AVI格式视频。 | ||
RecolorHDImage | 对高清图像进行颜色拓色,并能够保证人像部分颜色不发生变化。 | ||
EnhanceImageColor | 对输入图片的饱和度、亮度以及肤色等进行最优调整。 | ||
ColorizeImage | 对黑白照片、黑白图像自动上色。 | ||
图像编辑 | ChangeImageSize | 对输入图片进行指定尺寸变换,自动判断主体区域位置,使用最佳的裁剪方式对图片进行裁剪。 | |
IntelligentComposition | 对输入图像进行美学评估,智能输出bounding box,根据这些bounding box可以将原图裁剪成构图更好的图像。 | ||
ImitatePhotoStyle | 将输入的参考图的光照、色彩等不影响原图结构的风格迁移至目标图。 | ||
RemoveImageSubtitles | 擦除图片中的标准字幕。 | ||
RemoveImageWatermark | 擦除图片中的常见标志,如台标、互联网平台logo等。 | ||
ImageBlindPicWatermark | 图像盲水印算法,加/解析水印,添加内容包括图像logo和文字两种。 | ||
ImageBlindCharacterWatermark | 图像盲水印算法,加/解析水印,添加内容包括图像logo和文字两种。 | ||
ErasePerson | 可以擦除图像中指定区域的人像,并自动填充背景。 | ||
图像评分 | AssessComposition | 检测输入图像,输出图像的构图美学评分。 | |
AssessExposure | 检测输入图像,输出图像的曝光度评分。 | ||
AssessSharpness | 检测输入图像,输出图像的清晰度评分。 |
分割抠图(imageseg)
分割抠图类目能力开通链接:立即开通
分类 | 能力接口名 | 能力中文名 | 说明 |
人像分割 | SegmentBody | 识别输入图像中的人体轮廓,与背景进行分离,返回分割后的前景人像图(4通道)。适用于单人或多人、复杂背景、各类人体姿态等场景。 | |
SegmentHead | 识别输入图像中的人脸轮廓,不包含脖子、耳朵、头发,返回仅人脸区域可视的透明图(4通道)。适用于单人或多人场景。 | ||
SegmentHair | 识别输入图像中的头发轮廓,不含脖子、耳朵,返回仅头发区域可视的透明图(4通道),适用于单人或多人场景。 | ||
ParseFace | 识别输入图像中的五官轮廓,对眼睛、鼻子、嘴进行像素级语义分割,人脸比较明显的图片输入效果更好。 | ||
SegmentSkin | 识别图片中的人物皮肤,并对图中人物的皮肤区域进行分割。 | ||
SegmentHDBody | 自动识别图中人体轮廓,实现与背景进行分离,返回分割后的前景人像图。本功能适用于真人图片,不适用于卡通图片。 | ||
商品分割 | SegmentCloth | 对输入图像中的服饰进行像素级抠图,并返回抠图结果。 | |
SegmentCommodity | 识别输入图像中的商品轮廓,与背景进行分离,返回分割后的前景商品图(4通道)。适用于单商品或多商品、复杂背景等场景。 | ||
通用分割 | SegmentCommonImage | 自动识别输入图像中的视觉中心主体轮廓,将主体作为前景擦除背景,返回分割后的前景主体图(4通道)。适用于人、动物、食物、物品等抠图场景。 | |
SegmentSky | 识别输入图像中的天空区域,与背景进行分离,返回分割后的前景区域图。 | ||
SegmentFood | 对图片中的食品进行像素级抠图,并返回抠图结果。 | ||
RefineMask | 对输入的图像与粗糙mask进行精细化处理,输出精细化mask。 | ||
SegmentHDSky | 可以对输入图片中的天空进行像素级抠图,实现分割功能。 | ||
SegmentHDCommonImage | 可以对图片中的主体进行分割,并输出对应的PNG格式透明图。 | ||
分割替换 | ChangeSky | 将参考图的天空样式替换到目标图中,从而改变目标图的天空样式。 |
图像分析处理(imageprocess)
图像分析处理类目能力开通链接:立即开通
分类 | 能力接口名 | 能力中文名 | 说明 |
医疗图像分析 | DetectCovid19Cad | 对输入的DICOM影像(如5 mm的单个序列,API仅接受单序列),进行新型冠状肺炎的影像分析。 | |
DetectLungNodule | 对输入的胸部常规CT形成的DICOM影像(如5 mm的单个序列,API仅接受单序列),进行肺结节的辅助诊断。 | ||
CalcCACS | 根据胸部平扫CT进行冠脉钙化积分测算。输入标准DICOM格式或NIFTI格式的图像,输出钙化积分值和分割结果HTTP下载路径。 | ||
RunCTRegistration | 根据同病人不同时期的胸部CT扫描,进行图像配准。输入两套标准DICOM数据,分别作为参考图像和待配准图像,输出配准结果HTTP下载路径。 | ||
RunMedQA | 面向儿科疾病科普的医学健康知识问答,提供常见问题答案及相似的问题。 | ||
FeedbackSession | |||
DetectSkinDisease | 对输入的儿科皮肤自然图像进行皮肤病分类预测。 | ||
DetectRibFracture | 根据胸部CT成像进行肋骨骨折的辅助诊断,并输出骨折的位置及骨折的类型。 | ||
ScreenChestCT | 查基于常规胸部CT影像,实现了人体胸部多器官及多病种的检测及量化分析,主要功能如下:
| ||
AnalyzeChestVessel | 可以对输入的胸部CT平扫DICOM影像数据中的主动脉及肺动脉进行分割,并分别提取其中心线,然后根据中心线生成最佳视角的Stretch CPR图像、Cross Section图像及环绕血管一周的Straightened CPR图像,同时返回每根血管的最大直径,沿中心线上每隔1毫米处垂直于血管的血管截面积及这些点在原始图像病人坐标系中的位置。 | ||
DetectLymph | 可以检测胸部平扫或增强CT中的肿大淋巴结,包含胸部的纵膈、肺门和锁骨上淋巴结。 | ||
DetectPanc | 可以根据输入的胸部平扫CT评估胰腺癌风险。 | ||
SegmentOAR | 针对放疗场景,基于输入的胸部CT图像,进行危及器官的识别与分割。 | ||
ScreenEC | 可以根据输入的胸部平扫CT评估食管癌风险。 | ||
TargetVolumeSegment | 可以根据输入的胸部平扫或增强CT,指定癌症类型和靶区类型,进行智能靶区勾画。 | ||
SegmentLymphNode | 可以根据输入的胸部平扫或增强CT,指定目标部位,进行淋巴站分割。 | ||
CalcBMD | 可以根据输入的胸部或腹部CT成像进行椎体定位、命名以及骨密度估计。 | ||
DetectLiverSteatosis | 可以根据输入的胸部或腹部CT成像进行肝脾定位分割,以及肝脾全局或局部密度统计测量,最终根据测量结果和深度模型计算,判断有无脂肪肝以及脂肪肝的严重程度。 | ||
ScreenGC | 可以根据输入扫描范围覆盖胃的平扫CT(例如胸部或腹部平扫CT等),检测胃癌和非胃癌病变。 | ||
ScreenLC | 可以根据输入扫描范围覆盖肝脏的平扫CT,检测多种肝脏肿瘤。 | ||
ScreenCRC | 可以根据输入扫描范围覆盖结直肠的平扫CT,如:胸部平扫CT、腹部平扫CT等,检测结直肠癌(colorectal cancer,CRC)。 | ||
PredictCVD | 可以基于平扫胸部(胸腹部)CT(门控或非门控都可以),实现冠脉钙化积分、主动脉钙化积分、心外膜脂肪等13种指标的量化值,并给出该患者发生心血管不良事件的概率。 |
目标检测(objectdet)
目标检测类目能力开通链接:立即开通
分类 | 能力接口名 | 能力中文名 | |
车辆检测 | DetectVehicleICongestion | 根据图片中的车辆,判断是否发生拥堵。 | |
DetectVehicleIllegalParking | 可通过检测图片中目标区域内是否有车辆停放。 | ||
通用检测 | DetectMainBody | 检测图像中的内容主体,返回该主体的区域位置/坐标信息。 | |
DetectWhiteBaseImage | 检测图片背景是否为白底。 | ||
DetectKitchenAnimals | 基于视觉AI算法、物联网、大数据分析技术,猫鼠识别能力可以检测出场景中是否有猫、老鼠等动物,实现实时预警。 | ||
DetectWorkwear | 基于视觉AI算法、物联网、大数据分析技术,检测指定场景范围内的人员帽子、口罩、工作服等穿戴情况,对不规范穿戴行为进行实时预警。 | ||
DetectObject | 检测输入图像中的物体。 | ||
DetectIPCObject | 可以检测到输入图像中的目标物体,例如人、车辆、宠物等。 | ||
DetectVideoIPCObject | 可以检测到输入视频中的目标物体,例如人、车辆、宠物等。 |
视频理解(videorecog)
视频理解类目能力开通链接:立即开通
分类 | 能力接口名 | 能力中文名 | 说明 |
视频理解 | GenerateVideoCover | 输入一段视频通过算法解析视频,把具有吸引力的内容进行输出,可输出多个视频封面。 | |
DetectVideoShot | 对输入的视频按镜头切分,返回切分点。 | ||
UnderstandVideoContent | 可以分析出视频中的明星、素人、游戏画面等各种元素。 | ||
RecognizeVideoCastCrewList | 可以识别视频中的文本,可涵盖新闻、影视剧、娱乐、体育等多场景的中英文、繁简体、比分等识别,支持普通字幕、定常字幕、滚动字幕、部分自然场景文字、竖排文字及艺术字等多种类型。 | ||
SplitVideoParts | 可以多维度对视频进行分析理解,将视频拆解为多个片段并返回每个片段的边界时间点(不返回具体视频片段),并对片段进行摘要描述,拆分维度包含镜头和主题等。 | ||
EvaluateVideoQuality | 可以评估输入视频的质量,包含基础质量评估和瑕疵质量评估两种模式,并输出质量评估综合报告和详细报告。 |
视频分割(videoseg)
视频生产(videoenhan)
视频生产类目能力开通链接:立即开通
分类 | 能力接口名 | 能力中文名 | 说明 |
视频摘要 | AbstractFilmVideo | 输入影视视频,通过算法进行视频解析,按照指定时长输出视频摘要。 | |
AbstractEcommerceVideo | 输入电商视频,通过算法进行视频解析,按照指定的时长输出视频摘要。 | ||
视频编辑 | EraseVideoSubtitles | 擦除视频中的“标准”字幕,如电影电视剧中下方的白色字幕。 | |
EraseVideoLogo | 擦除视频中的常见标志,如台标、互联网平台logo等。 | ||
ChangeVideoSize | 可以对输入视频进行智能裁剪和填充,输出任意分辨率的视频。 | ||
MergeVideoFace | 可以将视频中某个指定的人脸,融合进另一个人的人脸特征,达到换脸的感官效果。 | ||
MergeVideoModelFace | 可以将视频中检测到的最大人脸,融合进另一个人的人脸特征,达到换脸的感官效果。 | ||
AddFaceVideoTemplate | 可以将已通过内容审核的包含人脸的视频,作为视频人脸融合的模板,供模板视频人脸融合功能使用。 | ||
QueryFaceVideoTemplate | 可以查询用户已添加过的视频人脸模板。 | ||
DeleteFaceVideoTemplate | 可以删除用户已添加过的模板视频。 | ||
GenerateHumanAnimeStyleVideo | 可以根据输入的人像视频进行卡通化转换,返回风格化后的视频结果。 | ||
视频增强 | EnhanceVideoQuality | 基于AI深度学习算法,可以对输入的SDR视频进行插帧、超分辨率SR、SDR转HDR综合增强处理。 | |
SuperResolveVideo | 将输入视频放大2倍尺寸输出,并基于推断细节增强输出视频画质,输出视频为h264编码、MP4格式。 | ||
InterpolateVideoFrame | 基于深度学习的帧率上变换,通过插帧网络合成任意时刻的视频帧,从而优化解决视频中卡顿、抖动等画质问题。 | ||
AdjustVideoColor | 输入一组视频,输出一组调色后的视频。可根据视频之间的相似性进行关联调色。 | ||
ToneSdrVideo | 基于内容语义识别与内容颜色,自动优化SDR视频的颜色,提升视频色彩质量。 | ||
ConvertHdrVideo | 可将普通SDR视频转化为HDR视频,色域提升至BT2020,色深提升至10bit,亮度提升至最高1000nit,以提供更高品质的视频内容。 | ||
ReduceVideoNoise | 对视频中的各类噪声信息进行降低,同时保持帧间的稳定性,避免处理后的视频出现闪烁和抖动问题。 | ||
EnhancePortraitVideo | 对视频中的人脸进行清晰度提升,显著增加面部细节和质感,同时通过人脸质量评估算法与动态调整融合系数,保持增强后人脸的自然和真实。 | ||
视频生成 | GenerateVideo | 可以根据输入的原始视频,智能生成营销短视频。 |
自学习工具(viapi_regen)
自学习类目能力开通链接:立即开通
自学习服务将于2024年9月30日起停止提供服务,已开通服务的老用户可以在2024年9月30日前通过视觉智能开放平台控制台正常访问,新用户将不再支持开通该服务。如需继续使用类似自学习的服务,请前往人工智能平台PAI重新训练模型。
如果您使用的是自学习旧版,请参见以下API列表:
名称
能力接口名
能力中文名
说明
生产空间
CreateWorkspace
通过选择生产空间类型,输入空间名称和空间描述创建新的生产空间。
UpdateWorkspace
根据生产空间ID更新生产空间的名称和描述。
ListWorkspaces
根据RegionID查看区域下的生产空间详细数据。
GetWorkspace
根据工作空间ID查看工作空间的详细情况。
DeleteWorkspace
根据生产空间ID删除生产空间。
数据集
CreateDataset
通过生产空间ID,创建生产空间下的新数据集。
UpdateDataset
根据数据集ID更新数据集的名称和描述。
ListDatasets
根据生产空间ID查看空间下数据集列表信息,分页展示。
GetDataset
根据数据集ID查看数据集的详细情况。
DeleteDataset
根据数据集ID删除数据集。
ListDatasetDatas
通过数据ID查看数据集详细数据。
SetDatasetUserOssPath
使用用户指定的OSS路径,上传其中的文件。
DownloadFileNameList
根据输入参数,下载对应的数据集文件名称列表。
DownloadDataset
根据输入参数,下载相应的数据集签名OSS路径名称列表(有效期为七天)。
标注集
CreateLabelset
通过数据集ID,为此数据集创建新的标注。
UpdateLabelset
根据标注集ID更新标注集的名称和描述。
ListLabelsets
根据数据集ID查看数据集下标注集详细数据。
ListLabelsetDatas
通过标注ID查看标注集详细数据。
GetLabelset
根据标注ID查看标注集的详细情况。
GetLabelDetail
统计标注的标签以及数量。
DeleteLabelset
根据标注ID删除标注集。
DeleteLabelsetData
在标注数据查看列表页删除单行数据。
DownloadLabelFile
根据标注ID下载标注文件。
GetDiffCountLabelsetAndDataset
标注完成后二次点击标注的时候获取数据集和标注集的数量差。
CreateTagTask
当前标注任务标注成功后,单独对数据集进行新增数据,可调用此接口进行继续标注,不需要重新创建新的标注任务。
CheckDatasetOssBucketCORS
通过标注集ID,检查对应数据集所使用的用户OSS Bucket的跨域规则是否满足要求。
训练管理
CreateTrainTask
通过生产空间ID,输入名称和描述,选择数据集、标注和训练模式,创建在此生产空间下的新训练任务。
UpdateTrainTask
根据训练任务ID更新对应训练任务的名称、描述以及高级参数。
ListTrainTasks
通过生产空间ID查看此空间下训练任务详细数据。
DeleteTrainTask
根据训练任务ID删除训练任务。
GetTrainTask
根据训练任务ID查看训练任务的详细情况。
GetTrainModel
通过训练任务ID,获取训练模型。
GetTrainTaskEstimatedTime
根据训练任务ID查看此训练任务的剩余时间。
StartTrainTask
根据训练任务ID开启未训练的训练任务。
StopTrainTask
根据训练任务ID停止正在训练中的训练任务。
服务管理
CreateService
通过训练任务ID,输入服务名称和接口地址发布新服务。
UpdateService
根据服务ID修改对应服务名称。
ListServices
通过空间ID查看服务数据详细数据。
GetService
通过服务ID,查看服务详情。
DeleteService
根据服务ID删除服务。
DebugService
上传图片,调用服务,返回运行结果和置信率。
GetServiceInvoke
根据输入参数,获取相应服务在某个时间段内的调用量情况。
GetServiceQps
根据输入参数,获取相应服务在某个时间段内的QPS情况。
StartService
通过服务ID,调用阿里云EAS接口,启动服务,并锁定服务资源。
StopService
通过服务ID,调用阿里云EAS接口,停止服务,并结算库存。
DeleteDataReflowData
根据输入参数,删除相应的回流数据。
ListDataReflowDatas
根据输入参数,查询当前服务的回流数据。
DisableDataReflow
根据输入参数,关闭相应服务的数据回流。
EnableDataReflow
根据输入参数,开启相应服务的数据回流。
ExportDataReflowDataList
根据输入参数,导出相应的回流数据。
算法调用
CustomizeClassifyImage
根据输入的图像,输出图像中物体的分类。
CustomizeDetectImage
根据输入的图像,输出图像中物体的位置和分类。
CustomizeInstanceSegmentImage
根据输入的图像,输出图像中物体的轮廓和分类。