存量检测OSS存储图片、音视频和文档数据

OSS违规检测普惠版面向有定期检测OSS存量数据需求的客户,能够提供价格更优惠的时效规格,集成内容审核增强版服务检测能力,支持更多的风险类型和更丰富的风险标签,支持OSS存储空间(Bucket)和日志服务SLS等云产品原生功能,并大幅度提升使用体验。本文介绍如何使用普惠版存量检测OSS存储的图片、音视频和文档数据。

开通与授权

OSS违规检测普惠版采用内容审核增强版的检测服务,所以在使用OSS违规检测普惠版之前,需要您先开通内容安全增强版。具体操作,请参见开通与收费

在使用OSS违规检测普惠版之前,需要授权内容安全访问OSS存储空间和日志服务。授权成功后,OSS违规检测普惠版会将检测结果推送到日志服务中,日志服务提供查询分析和加工等功能,帮助您了解内容风险趋势并实时监测等。

image.png

推送日志和查询分析不会产生额外费用,需要您开通日志服务并授权相关权限。具体计费信息,请参见OSS违规检测普惠版费用说明

配置存量检测任务

  1. 登录内容安全控制台。在左侧导航栏,选择OSS违规检测普惠版>检测任务

  2. OSS违规检测普惠版页面,单击存量扫描任务

    根据页面向导,完成如下配置。

    image.png

    1. 选择检测任务的类型,然后单击下一步

      配置项

      说明

      任务名称

      存量检测任务的名称。该值唯一。

      选择Bucket(多选)

      • 支持公共云OSS除中国香港和海外地域以外的所有地域。

        关于OSS支持的地域,请参见OSS访问域名和数据中心

      • 支持公共云OSS无地域属性(中国内地)的地域。

      选择任务类型

      支持图片检测任务和音视频检测任务。

      • 图片任务

        支持的图片格式:PNG、JPG、JPEG、BMP、WEBP、TIFF、SVG、ICO、HEIC。

        图片大小不超过20 MB,过大的图片文件不会被检测。

        默认关闭无后缀文件检测。如开启无后缀文件检测后,无后缀文件会根据文件的content-type自动判断是否图片。

      • 音视频任务

        支持的视频格式:AVI、FLV、MP4、MPG、ASF、WMV、MOV、WMA、RMVB、RM、FLASH、TS。

        支持的音频格式:MP3、WAV、AAC、WMA、OGG、M4A、AMR、FLAC、3GP、APE。

        音视频大小不超过1 GB,过大的音视频文件不会被检测。

        默认检测视频文件和音频文件

      • 文档任务

        支持的文档格式:DOC、DOCX、PPT、PPTX、PPS、PPSX、PDF、XLS、XLSX、XLTX、XLTM、HTML、TXT。

        文档大小不超过200M,过大的文档文件不会被检测。

      选择检测服务

      您可以单击查看具体规则,调整当前任务的检测类型,支持选择多个检测类型。关于如何调整内容审核增强版服务的配置,请参见控制台操作指南

      重要

      OSS普惠版检测任务和内容审核服务API使用同一个检测配置,调整检测配置会对两者同时生效。

      • 图片检测服务

        • 通用场景:

          • OSS基线检测(OSS普惠版专用)(推荐):适用于OSS检测图片中是否存在违规或不宜传播的内容,包含对恶意图片文件识别能力。

          • 通用基线检测:检测图片中是否存在违规或不宜传播的内容。

            如果您的文件存在公网可访问的图片,建议您勾选该项。

          • 通用基线检测_专业版:在通用基线检测的基础上支持更细粒度的标签返回。

            如果您的文件对图片有更细粒度的处理需求和少量个性化需求,建议您勾选该项。

          • 内容治理检测:检测图片中是否存在影响平台秩序、内容调性或影响用户体验的内容。

            建议在通用基线检测的基础上根据治理需求进行使用。

        • AIGC场景:

          • AIGC图片风险检测:针对AIGC场景,检测AIGC生成的图片是否存在违规或者不宜传播的内容。

            如果您的文件存在AIGC生成的图片,建议您勾选该项。

          • AIGC图片侵权检测:针对AIGC场景,请求时对图片中的商标、特殊标识、人物等元素进行检测,判断是否有疑似侵权的风险。

          • 图片是否AIGC生成判定:针对各种场景,判断图片是否由AIGC生成。

        • 业务场景:

          • 头像图片检测:针对头像场景,检测头像图片是否存在违规、不宜传播或者影响平台秩序的内容。

          • 帖子评论图片检测:针对帖子配图和评论配图场景,检测图片是否存在违规、不宜传播或者影响平台秩序的内容。

          • 营销素材检测:针对营销素材场景,检测图片是否存在违反广告法、违规、不宜传播或者影响平台秩序的内容。

          • 视频\直播截图检测:针对视频截图和直播截图场景,检测图片是否存在违规、不宜传播或者影响平台秩序的内容。

        • 特殊场景:

          • 恶意图片检测:针对恶意利用图片隐藏视频片段或者隐藏视频播放器的情况进行检测,防止对象存储和CDN流量被黑产盗用。

      • 音视频检测服务

        • 视频文件检测(推荐):检测视频文件中是否存在违规或不宜传播的内容。建议对涉及开放公网访问的视频文件均进行该项检测。

      • 文档检测服务

        • 通用文档检测(推荐):检测文档中是否包含图片或文字违规信息,包括色情、性感、涉政、暴恐、违禁等底线类内容。

    2. 根据业务需要,指定检测任务的范围。然后单击下一步

      配置项

      说明

      筛选指定时间范围内上传或更新的文件

      设置检测OSS Bucket中指定时间范围内上传或更新的文件。

      筛选

      设置检测前缀包含指定内容或者前缀不包含特定内容的文件。例如,添加img/test_,表示仅扫描OSS Bucket中以img/test_为前缀的文件。

      说明

      如果要扫描的文件在特定目录下,您可以在文件名前加上目录路径,以整体作为前缀。

      已检测过的文件不再重复检测

      开启已检测过的文件不再重复检测,检测任务将不会再次检测标记过的OSS文件。

      任务检测过的文件,会通过OSS对象标签(Tagging)进行标记。您可以单击如何查看OSS文件是否检测过,查看哪些文件被检测过。具体操作,请参见OSS违规检测结果日志存储

    3. 选择规格。

      配置项

      说明

      设置上限

      • 不限制数量:不限制文件的检测数量,内容安全会为您检测所有文件。

      • 设置检测上限:根据您业务需要设置,内容安全不做限制。

      • 重要

        提示的OSS Bucket总共文件数量可作为参考,其中包含多少图片文件无法提前预估。

        如果账号下全部检测中的图片任务包含文件数量超过5,000,000 个,或者音视频任务(或者文档任务)包含文件数量超过500,000 个,则无法再选择24小时内检测的规格。

        建议设置任务检测文件的数量上限,或者选择排队检测的时效规格。

      选择规格

      支持两种检测时效,对应不同的单价,相比API检测更优惠。具体价格,请参见OSS违规检测普惠版费用说明

      • 24小时内检测:任务会优先调度,任务创建后在24小时内检测完成。

      • 排队检测:任务按照创建时间排队调度,时效与检测文件数量有关,任务创建后通常在3天内检测完成。

    4. 回调及处置设置。

      配置项

      说明

      回调通知

      可以选择已经创建好的回调通知方案,也可以新建回调通知方案。检测结果会根据消息通知的设置进行返回。

      说明

      回调通知可以在消息通知页面进行管理,详细操作,请参考配置消息通知

      结果处置

      默认关闭结果自动冻结,您也可以选择开启,开启后会根据您选择的处置范围和处置方式进行结果处理。

      处置范围

      • 图片任务

        可选冻结高风险内容和冻结中风险内容。

        默认冻结高风险内容,您可以选择是否冻结中风险内容,建议根据实际情况进行选择。风险等级分值可以在图片审核的规则配置中进行管理。

      • 音视频任务

        视频画面和视频语音分别可选冻结高风险内容和冻结中风险内容。

        默认视频画面和视频语音都是冻结高风险内容,您可以选择是否冻结中风险内容,建议根据实际情况进行选择。风险等级是根据视频文件所有画面截帧和所有语音切片计算的风险。

      • 文档任务

        文档图像和文档文本分别可选冻结高风险内容和冻结中风险内容。

        默认文档图像和文档文本都是冻结高风险内容,您可以选择是否冻结中风险内容,建议根据实际情况进行选择。风险等级是根据文档文件所有文档截图和所有文本计算的风险。

      处置方式

      • 修改权限:将符合处置范围的OSS文件设置为private访问权限。

      • 移动文件:将符合处置范围的OSS文件移动到Bucket中的备份目录中(位置:${bucket}/alicip_riskfile_backup/),并删除原路径下的文件。

      重要

      开启结果自动冻结需要进行OSS授权,开启后会直接处置符合条件的OSS文件,请确保设置的检测范围和检测条件满足您的需求。如果遇到误冻结OSS文件,您可以在查看结果中恢复或者参考使用OSS API恢复被冻结的文件文档进行恢复。

      如果您需要对OSS Bucket新增文件进行近实时检测,可以单击增量扫描任务,配置OSS违规检测增量扫描任务为您检测增量文件。具体操作,请参见增量检测OSS增量图片、音视频和文档数据

  3. 单击提交

    image

    说明

    任务创建成功后,在任务列表中显示其状态为检测中,检测完成后状态为任务完成

    • 任务列表显示任务包含文件总数量(筛选文件个数),以及实际检测的文件数量(检测文件)。由于检测任务是异步进行的,列表中的任务信息更新会存在一定的时延,大概1分钟左右。

    • 任务列表支持根据任务时间筛选,也可以查看任务检测结果,以及任务配置情况。最多可查询最近180天内的检测任务和检测结果。

配置消息通知

  1. OSS违规检测普惠版中,单击导航栏消息通知

  2. 在此处可以对所有的消息通知方案进行管理,支持新增、编辑和删除。

    1. 新增通知:点击新增通知按钮弹出新增页面,录入回调方案信息,点击确定按钮即可添加成功。

      • 方案名称:12个字符以内,允许中英文、下划线、数字;

      • 回调地址:接受回调消息的URL地址,请确保地址能够正常返回;

      • 加密算法:选择合适的加密算法;

      • 审核结果:可选检出有风险结果(指仅返回检出有风险标签的结果)或所有结果(指返回所有检测结果)。

    2. 编辑通知:可以对通知消息进行编辑,如果编辑在使用中的消息,会影响所有正在配置的任务,请谨慎修改。

    3. 删除通知:可以删除没有在使用的消息通知,使用中的消息通知不允许删除。

  3. 消息通知内容:

启用回调通知后,内容安全将按照回调配置发送OSS违规检测的回调通知,下表描述了回调通知的字段结构。

名称

类型

示例值

描述

Code

String

200

状态码。

RequestId

String

ABCD1234-1234-1234-1234-123****

本次检测的ID,是由阿里云为该请求生成的唯一标识符,可用于排查和定位问题。

Data

Object

内容检测结果。更多信息,请参见Data

表 2. Data

名称

类型

示例值

描述

OssBucketName

String

AAAAA-BBBBB-2024*-0307*

OSS文件所在的Bucket名。

OssObjectName

String

videoId****

OSS文件的文件名。

OssRegionId

JSONObject

Bucket所在区域。

Results

JSONObject

图片检测任务返回的结果。更多字段说明,请参见图片返回数据

FrameResult

JSONObject

视频检测任务视频画面返回的结果。更多字段说明,请参见视频返回数据

AudioResult

JSONObject

视频检测任务视频语音返回的结果。更多字段说明,请参见视频返回数据

PageResult

JSONObject

文档检测任务返回的结果。更多字段说明,请参见文档返回数据

返回示例:

图片检测

图片检测任务返回的回调格式参考如下。关于字段说明,请参见返回数据

{
    "Code": 200,
    "Data": {
        "OssObjectName": "test/img.webp",
        "OssBucketName": "tmpsample",
        "OssRegionId": "cn-shanghai",
        "Results": [
            {
                "Service": "oss_baselineCheck",
                "RiskLevel": "high",
                "Result": [
                    {
                        "Confidence": 95.89,
                        "Label": "sexual_partialNudity"
                    }
                ]
            }
        ]
    },
    "RequestId": "AAAAA-BBBBB-CCCC-DDDDD"
}

音视频检测

音视频检测任务返回的回调格式参考如下。关于字段说明,请参见返回数据

{
    "Code": 200,
    "Data": {
        "TaskId": "ABCDEF_vi_0502zsx1314520yhxforever-12345",
        "OssObjectName": "test/test_video.mp4",
        "OssRegionId": "cn-shanghai",
        "OssBucketName": "tmpsample",
        "RiskLevel": "high",
        "FrameResult": {
            "FrameNum": 2,
            "RiskLevel": "medium",
            "FrameSummarys": [
                {
                    "Label": "violent_explosion",
                    "LabelSum": 8
                },
                {
                    "Label": "sexual_cleavage",
                    "LabelSum": 5
                }
            ],
            "Frames": [
                {
                    "Offset": 1,
                    "RiskLevel": "none",
                    "Results": [
                        {
                            "Result": [
                                {
                                    "Label": "nonLabel"
                                }
                            ],
                            "Service": "baselineCheck_global"
                        }
                    ],
                    "TempUrl": "http://abc.oss-ap-southeast-1.aliyuncs.com/test1.jpg"
                },
                {
                    "Offset": 2,
                    "RiskLevel": "medium",
                    "Results": [
                        {
                            "Result": [
                                {
                                    "Confidence": 1,
                                    "Label": "sexual_cleavage"
                                },
                                {
                                    "Confidence": 74.1,
                                    "Label": "violent_explosion"
                                }
                            ],
                            "Service": "baselineCheck_global"
                        }
                    ],
                    "TempUrl": "http://abc.oss-ap-southeast-1.aliyuncs.com/test2.jpg"
                }
            ]
        },
        "AudioResult": {
            "AudioSummarys": [
                {
                    "Label": "sexual_sounds",
                    "LabelSum": 3
                }
            ],
            "RiskLevel": "high",
            "SliceDetails": [
                {
                    "EndTime": 60,
                    "EndTimestamp": 1698912813192,
                    "Labels": "",
                    "RiskLevel": "none",
                    "StartTime": 30,
                    "StartTimestamp": 1698912783192,
                    "Text": "内容安全",
                    "Url": "http://abc.oss-cn-shanghai.aliyuncs.com/test.wav"
                },
                {
                    "EndTime": 30,
                    "EndTimestamp": 1698912813192,
                    "Extend": "{\"customizedWords\":\"服务\",\"customizedLibs\":\"test\"}",
                    "Labels": "C_customized",
                    "RiskLevel": "high",
                    "StartTime": 0,
                    "StartTimestamp": 1698912783192,
                    "Text": "欢迎使用阿里云内容安全服务",
                    "Url": "http://abc.oss-cn-shanghai.aliyuncs.com/test.wav"
                }
            ]
        }
    },
    "RequestId": "9d93d864-ebb9-469f-b7f9-b66ee3a9c41c"
}

文档检测

文档检测任务返回的回调格式参考如下。关于字段说明,请参见返回数据

{
    "Code": 200,
    "Data": {
        "OssObjectName": "test/测试文档.docx",
        "OssBucketName": "tmpsample",
        "OssRegionId": "cn-shanghai",
        "PageSummary": {
            "PageSum": 2,
            "ImageSummary": {
                "RiskLevel": "high",
                "ImageLabels": [
                    {
                        "LabelSum": 2,
                        "Label": "nonLabel"
                    },
                    {
                        "LabelSum": 1,
                        "Label": "pornographic_adultContent_tii"
                    }
                ]
            },
            "TextSummary": {
                "TextLabels": [
                    {
                        "LabelSum": 2,
                        "Label": "contraband"
                    }
                ],
                "RiskLevel": "high"
            }
        },
        "PageResult": [
            {
                "ImageResult": [
                    {
                        "Description": "对文档页面的图像内容审核",
                        "LabelResult": [
                            {
                                "Label": "nonLabel"
                            }
                        ],
                        "RiskLevel": "none",
                        "Service": "baselineCheck"
                    }
                ],
                "ImageUrl": "http://oss.aliyundoc.com/a.png",
                "PageNum": 1,
                "TextResult": [
                    {
                        "Description": "对文档页面的文字内容审核",
                        "Labels": "",
                        "RiskLevel": "none",
                        "RiskTips": "",
                        "RiskWords": "",
                        "Service": "pgc_detection",
                        "Text": "内容安全产品测试用例a"
                    }
                ]
            },
            {
                "ImageResult": [
                    {
                        "Description": "对文档页面的图像内容审核",
                        "LabelResult": [
                            {
                                "Confidence": 89.01,
                                "Label": "pornographic_adultContent_tii"
                            }
                        ],
                        "RiskLevel": "high",
                        "Service": "baselineCheck"
                    }
                ],
                "ImageUrl": "http://oss.aliyundoc.com/b.png",
                "PageNum": 10,
                "TextResult": [
                    {
                        "Description": "对文档页面的文字内容审核",
                        "Labels": "contraband,sexual_content",
                        "RiskLevel": "high",
                        "RiskTips": "违禁_违禁商品,色情_影视资源,色情_低俗",
                        "RiskWords": "风险词A,风险词B",
                        "Service": "ad_compliance_detection",
                        "Text": "内容安全产品测试用例b"
                    }
                ]
            }
        ]
    },
    "RequestId": "1d122669-f580-4e17-aafd-87b6803dd830"
}

查看任务检测结果

  1. OSS违规检测普惠版页面任务列表,单击指定任务右侧操作查看结果

  2. 查看结果页面,根据检测时间范围、文件名(Object)、文本信息、风险等级、检索标签、自动处置状态查询任务检测结果信息。

    最多可查询最近180天的检测结果,最多展示和导出50,000条数据。您查询的全部检测结果会推送到日志服务中,日志服务提供查询分析和加工等功能,帮助您了解内容风险趋势并实时监测等。具体信息,请参见OSS违规检测结果日志存储

    image

    OSS违规检测普惠版会根据查询结果为文件标注审核增强版的返回标签。关于标签值和释义,图片或视频画面或文档截图请参见图片审核增强版同步检测API,音频请参见语音审核增强版API,文档文本请参见文本审核增强版API

    检测过程中可能出现检测失败,包括文件过大、格式不支持、文件访问失败等原因,这部分不会产生检测费用,结果不会展示在列表中。如果需要这部分检测结果,请加入钉群(钉群号:35573806),联系产品技术专家进行咨询。

  3. 如果是音视频检测任务,点击操作列的音画结果查看视频画面和视频语音的详细审核结果。

    image

  4. 如果是文档增量任务,点击操作列的文档页结果查看文档截图和文档文本的详细审核结果。

    image

  5. 单击指定文件右侧操作查看,查看文件预览信息和详细的返回结果。

    导出检测结果:单击查询结果列表右上方image.png图标,导出XLSX格式文件。

取消检测任务

  • 如果您需要取消存量检测任务,可以在OSS违规检测普惠版页面,对正在检测的任务单击取消任务即可。已完成和停止的任务不能被取消。任务取消后,已完成检测的文件结果,仍支持查看和导出检测结果。

  • 由于检测任务是异步进行的,取消任务的操作实际生效可能存在时延,通常在1分钟左右。时延期间正在检测或者已经排队的文件仍然会继续至检测完成。

  • 取消的任务显示为任务停止状态,且无法重新恢复检测。如果是因为配置错误等因素,需要取消任务后,重新创建一个检测任务。建议开启已检测文件去重的选项,避免对同一批文件产生多次检测费用。