配置存量扫描任务

本文介绍如何配置存量扫描任务,对指定OSS Bucket中的已有图片或视频文件进行一次性违规检测,并在检测完成后查看扫描结果和统计数据。

背景信息

关于OSS违规检测的使用限制(例如支持的OSS Bucket、检测场景、文件格式等),请参见使用限制

前提条件

步骤一:创建存量扫描任务

  1. 登录内容安全控制台

  2. 在左侧导航栏,选择OSS违规检测 V1.0 > 存量扫描

  3. 单击创建扫描任务,配置存量扫描任务。

  4. 按照配置向导,完成以下配置。

    1. 选择Bucket

      从左侧待选择框,选中需要检测的Bucket,添加到右侧的已选择框,然后单击下一步

    2. 设置过滤条件

      配置说明:

      • 过滤或排除:默认扫描已选Bucket中的所有文件,如果您需要指定扫描Bucket中的哪些文件或者不要扫描哪些文件,则可以单击Bucket右侧的设置过滤条件,并在过滤条件对话框,按照页面提示完成过滤条件配置,然后单击确定

        表 1. 过滤条件参数说明

        配置项

        说明

        过滤条件

        支持包含(表示扫描指定的路径)或排除(表示扫描时排除指定的路径)。

        必须且只能选择一种方式。

        路径

        输入要包含或排除的路径。

        单击添加可以添加多个路径。最多允许添加10个。

        配置示例(以包含条件为例):

        • 添加img/test_,表示只扫描Bucket中以img/test_为前缀的文件。

        • 如果要扫描的文件在特定目录下,您可以在文件名前加上目录路径,以整体作为前缀。例如,您要扫描的文件在img/202011目录下,且前缀为test_,您可以添加img/202011/test_作为路径。

      • 时间范围(必填):设置文件上传时间范围。内容安全只扫描在指定时间范围内上传的文件。

      然后单击下一步

    3. 配置检测场景

      OSS违规检测为您提供8个推荐配置,每种推荐配置包含大类场景(图片、视频、语音)和细分场景(每种推荐配置的细分场景均不相同)。如果推荐的配置与您业务不符,您可以关闭或者开启大类场景,但不支持修改细分场景。

      然后单击下一步

    4. 配置扫描范围

      扫描范围根据您配置的检测场景显示。例如,您只勾选图片,那么只显示图片的配置信息。如果当前配置与您业务不符,您可以自定义扫描范围。

      说明

      至少选择一类检测场景进行扫描,即图片、视频、语音中至少开启一项。

      表 2. 扫描配置参数说明

      扫描范围

      配置项

      说明

      图片

      图片扫描上限

      扫描的图片张数默认为10,000张/Bucket。如果设置了扫描上限,扫描数量超出限制后将会停止扫描,因此会存在巨大违规图片外露的风险。常规情况下,不建议您设置扫描上限。

      检测无后缀文件

      开启检测无后缀文件后,会扫描无后缀的图片文件,检测速度会降低,根据HTTP头的content-type判断是否为图片,支持content-type有:image/jpg,image/jpeg,image/png,image/gif,image/bmp,image/webp。

      视频

      视频扫描上限

      扫描的视频个数默认为1,000个/Bucket。如果设置了扫描上限,扫描数量超出限制后将会停止扫描,因此会存在巨大违规视频外露的风险。常规情况下,不建议您设置扫描上限。

      截帧频率

      截帧频率默认为1帧/秒,您可以设置截帧频率(每多少秒截取一帧)。取值范围1~60帧/秒。截帧频率越高,识别准确率越高。

      单视频帧数上限

      单视频帧数默认为200帧,您可以设置单个视频的最大截帧数量。取值范围:5~20,000帧。

      单视频大小上限

      单视频大小默认为500 MB,您可以设置单视频大小上限,取值范围:1~2,048 MB,超过部分不会被检测。

      语音

      语音扫描上限

      扫描的音频个数默认为1,000个/Bucket。如果设置了扫描上限,扫描数量超出限制后将会停止扫描,因此会存在巨大违规音频外露的风险。常规情况下,不建议您设置扫描上限。

      单音频大小上限

      单音频大小默认为200 MB。您可以设置单音频大小上限,取值范围:1~2,048 MB,超过部分不会被检测。

      然后单击下一步

    5. 可选:其它。在回调通知区域,您可以选择一个已有的回调通知方案,通过指定的通知方案接收存量扫描的结果。

      您必须先创建回调通知方案才可以进行设置。如果您未创建过回调通知方案,可以单击新增通知方案去添加通知方案。具体操作,请参见配置消息通知

  5. 在页面最下方,单击提交

    OSS违规检测功能会根据您的配置为您预估出扫描费用的上限,您可以根据实际业务选择按量付费或者资源包抵扣方式。

    然后单击确定

    存量扫描任务提交后,将立即开始扫描。扫描所需时间取决于存量文件的数量和开启的扫描场景。您可以在存量扫描任务列表中查看当前任务的状态。

    OSS违规检测为您提供如下功能。您需要根据实际需要,选择合适的操作。

    • 暂停扫描

      如果您因为其他原因,需要暂停扫描任务时,单击操作列暂停扫描。只有扫描任务未结束时可以执行该操作,支持扫描任务暂停后7天内可以继续扫描。

    • 数据统计

      如果您需要查看当前任务的调用量统计信息,单击操作列数据统计,进入OSS违规检测调用量页面,查看最近7天的调用量。您可以设置扫描的时间、任务等条件自定义查询统计信息。

    • 终止扫描

      如果您不再需要扫描当前任务时,单击操作列终止扫描,终止扫描后存量的文件将不再执行扫描动作。只有扫描任务未结束时可以执行该操作。

    • 扫描结果

      如果您需要查看当前任务的扫描结果,在操作列选择更多 > 扫描结果(任务未扫描完成)或者单击操作列扫描结果(任务已扫描完成)。您可以设置扫描的时间、任务等条件自定义查询结果信息。

    • 查看配置

      如果您需要查看当前任务的配置信息,在操作列选择更多 > 查看配置(任务未扫描完成)或者单击操作列查看配置(任务已扫描完成),展开任务配置详情面板查看。

    • 用量说明

      如果您需要查看当前任务的用量,在操作列选择更多 > 用量说明,展开任务用量说明面板查看。

步骤二:查看扫描结果

OSS违规检测服务为您提供查看扫描结果的功能,当您完成增量扫描任务后,您可以随时在内容安全控制台查看扫描结果,并根据检测结果执行自助审核。

  1. 存量扫描页面,查看您的任务概览任务状态以及任务结果

  2. 单击操作列扫描结果,查询扫描结果并进行自助审核。

    默认显示最近7天的扫描结果和处理的违规内容。您可以设置扫描范围筛选,导出扫描结果。少于50条记录时将导出所有结果,否则只导出违规和疑似违规的结果。

    说明

    通过单击扫描结果的图片或视频,可以查看详细信息,具体包括文件创建时间、Key值(OSS扫描的文件名)、所在Bucket。

    如果扫描结果不符合您的业务需要,您可以对扫描结果进行自助审核,自助审核包含如下操作:

    • 违规并删除

      通过单击违规并删除,可将图片或视频从内容安全控制台和OSS Bucket中一并删除。支持单选或者多选。

    • 正常并忽略

      通过单击正常并忽略,则忽略该检测结果。忽略后该图片或视频将不再在控制台展示,并不影响存储在OSS Bucket中的图片或视频。支持单选或者多选。

    • 正常并解冻

      若您设置了自动冻结功能,则还可以在选中图片或视频后单击正常并解冻,将已冻结的图片或视频解冻。

    您可以搜索您重点关注的结果,或者将扫描结果导出进行查看(少于50条记录时将导出所有结果,否则只导出违规和疑似违规的结果)。

步骤三:查看统计数据

OSS违规检测服务为您提供数据统计功能,当您完成存量扫描任务后,您可以随时在内容安全控制台查看数据统计信息。您可以通过监控一段时间的统计数据,根据网站的之前数据的违规情况,对网站的存量内容加以调整。

  1. 存量扫描页面的操作列,单击数据统计

  2. 数据统计页面,通过单击图片视频语音页签查看最近7天扫描的统计信息。

    支持查看的数据统计信息如下表所示。

    查询对象

    支持的统计信息

    图片

    • 图片总量:表示检测的图片总数量。

    • 鉴黄场景检测量:包含违规、疑似、正常结果的数量。

    • 暴恐涉政场景检测量:包含违规、疑似、正常结果的数量。

    • 广告场景检测量:包含违规、疑似、正常结果的数量。

    • 不良场景检测量:包含违规、疑似、正常结果的数量。

    视频

    • 视频总量:表示检测的视频总数量。

    • 截帧总量:表示检测的视频截帧总数量。

    • 鉴黄场景视频量:包含违规、疑似、正常结果的数量。

    • 暴恐涉政场景视频量:包含违规、疑似、正常结果的数量。

    • 广告场景检测量:包含违规、疑似、正常结果的数量。

    • 不良场景检测量:包含违规、疑似、正常结果的数量。

    • 语音反垃圾检测量:包含违规、疑似、正常结果的数量。

    语音

    • 语音总量:包含违规、疑似、正常结果的数量。

    • 语音总时长:包含违规、疑似、正常结果的数量。

    • 语音反垃圾检测量:包含违规、疑似、正常结果的数量。