智能标签是一种利用人工智能技术对文本进行分类和标注的方法,可以帮助用户更准确地理解和分析文本内容-智能媒体服务(IMS)-阿里云帮助中心

智能标签，是通过分析视频中视觉、文字、语音、行为等信息，结合多模态信息融合及对齐技术，实现高准确率内容识别，自动输出视频的多维度内容标签。该技术将非结构化信息转化为结构化信息，适用于媒资检索、个性化推荐、智能广告投放等场景。

功能概览

准确高效的媒体资源检索。通过准确丰富的视频标签体系，对视频、图像、文本等媒体文件进行内容编目，支持通过关键词或标签文本，对素材库中的内容进行快速检索，提升视频资源检索效率与准确性。

个性化推荐：精准、个性化的内容推荐。根据媒体文件内容标签，结合用户信息、行为数据及用户画像分析，进行内容精准匹配，实现视频个性化推荐，解决推荐冷启动问题，提升推荐准确率。
智能广告投放：智能化、场景化的广告投放。根据媒体文件多模态内容分析及视频标签结果，自动识别广告位，与广告资源库内容进行匹配，实现广告智能投放，精准触达受众人群，提升广告转化率。

功能	说明
视频分类+结构化标签	分析视频内容输出视频分类类目、实体标签结构化信息。
内容标签识别	分析视频的视觉图像信息，识别人物、物体、场景等画面内容标签。
视频文字识别标签OCR	识别视频图像中的文字，提取图像文本内容。
视频语音识别标签ASR	分析视频中的语音信息，提取语音文本内容。
视频标签	分析视频中节目、人物角色、物体、场景、地域等内容。
图片标签	分析图片中的人物角色、地域、动作事件、标识、物体等内容。

智能标签可以处理的文件类型和格式如下：

视频	音频	图片
视频格式：avi、flv、mkv、mpg、mp4、ts、mov、mxf	音频格式：mp3、wav	图片格式：jpg、jpeg、png
编码格式：MPEG2,、MPEG-4、H.264、H.265/HEVC	不涉及	不涉及
视频时长：≤4小时	音频时长：≤4小时	不涉及
视频大小：≤4 GB	音频大小：≤400 MB	图片大小：≤4 MB
视频分辨率：240P~2160P，为保证分析效果，建议分辨率≥720P。	不涉及	图片分辨率：≤2160P

说明

智能标签识别效果受拍摄角度、画面清晰度、遮挡情况等因素影响。部分特殊角度或非典型视角（如车身侧面）可能导致识别失败。建议上传分辨率≥720P、主体清晰且无严重遮挡的素材，以提升识别准确率。