本文介绍了调用网页异步检测接口(/green/webpage/asyncscan)进行网页内容审核的方法。网页内容审核帮助您检测网页上图片、文本是否包含违规内容,并返回内容审核的结果以及风险标签。该接口支持检测HTTP或者HTTPS协议访问的网页。

网页异步检测接口说明

业务接口:/green/webpage/asyncscan,表示网页异步检测。

您可以调用该接口创建网页异步检测任务。关于如何构造HTTP请求,请参见请求结构;您也可以直接选用已构造好的HTTP请求,更多信息,请参见SDK概览

  • 计费信息

    该接口为收费接口。关于计费方式,请参见内容安全产品定价

  • 返回结果

    异步检测任务不会实时返回检测结果,您需要通过callback或者轮询的方式获取检测结果。检测结果最长保留一小时。

    • callback获取检测结果:提交异步检测任务时,在请求参数中传入callback参数,用来自动接收检测结果。具体操作,请参见网页异步检测请求参数
    • 轮询获取检测结果:提交异步检测任务时,无需传入callback参数;提交异步检测任务后,调用结果查询接口获取检测结果。更多信息,请参见查询网页异步检测结果

请求参数

名称 类型 是否必选 示例值 描述
bizType String default 该字段用于标识您的业务场景。您可以通过内容安全控制台创建业务场景(具体操作,请参见自定义机审标准),或者提交工单联系我们帮助您创建业务场景。
callback String http://xxx.xx.xx/xx.json 检测结果回调通知您的URL,支持使用HTTP和HTTPS协议的地址。该字段为空时,您必须定时轮询检测结果。
callback接口必须支持POST方法、UTF-8编码的传输数据,以及表单参数checksumcontent。内容安全按照以下规则和格式设置checksumcontent,调用您的callback接口返回检测结果。
  • checksum:字符串格式,由用户uid + seed + content拼成字符串,通过SHA256算法生成。用户UID即阿里云账号ID,可以在阿里云控制台查询。为防篡改,您可以在获取到推送结果时,按上述算法生成字符串,与checksum做一次校验。
    说明 用户UID必须是阿里云账号的UID,而不是RAM用户的UID。
  • content:JSON字符串格式,请自行解析反转成JSON对象。关于content结果的示例,请参见查询检测结果的返回示例。
说明 您的服务端callback接口收到内容安全推送的结果后,如果返回的HTTP状态码为200,则表示接收成功,其他的HTTP状态码均视为接收失败。接收失败时,内容安全将最多重复推送16次检测结果,直到接收成功。重复推送16次后仍未接收成功,则不再推送,建议您检查callback接口的状态。
seed String aabbcc123 随机字符串,该值用于回调通知请求中的签名。

由英文字母、数字、下划线(_)组成,不超过64个字符。由您自定义,用于在接收到内容安全的回调通知时校验请求由阿里云内容安全服务发起。

说明 当使用callback时,该字段必须提供。
cryptType String SHA256 使用回调通知时(callback),设置对回调通知内容进行加密的算法。内容安全会将返回结果(由用户uid + seed + content拼接的字符串)按照您设置的加密算法加密后,再发送到您的回调通知地址。取值:
  • SHA256(默认):使用HMAC-SHA256加密算法。
  • SM3:使用国密SM3加密算法,返回十六进制的字符串,且字符串由小写字母和数字组成。

    例如,abc经国密SM3加密后返回66c7f0f462eeedd9d1f2d46bdc10e4e24167c4875cf2f7a2297da02b8f4ba8e0

textScenes Array ["antispam"] 表示网页文本要检测的场景,唯一取值:antispam
说明 textScenesimageScenes至少选一个。
imageScenes Array ["porn","terrorism"] 表示网页图片要检测的场景,取值:
  • porn:鉴黄
  • ad:广告
  • terrorism:暴恐涉政
  • live:不良场景
说明 textScenesimageScenes至少选一个。
tasks JSONArray 指定检测对象,JSON数组中的每个元素是一个检测任务结构体。最多支持100个元素,即每次提交100条内容进行检测,支持100个元素的前提是需要将并发任务调整到100个以上。关于每个元素的具体结构描述,请参见task
returnHighlightHtml Boolean false 指定是否高亮显示违规内容,取值:
  • true:高亮显示违规内容。
  • false(默认):不高亮显示违规内容。
表 1. task
名称 类型 是否必选 示例值 描述
dataId String test4lNSMdggA0c56MMvfYoh4e-1mwxpx 检测对象对应的数据ID。

由大小写英文字母、数字、下划线(_)、短划线(-)、英文句号(.)组成,不超过128个字符,可以用于唯一标识您的业务数据。

url String http://www.test.html 网页链接,支持HTTP、HTTP协议的网页检测。
说明 urlcontent字段二选一。
content String <html>hello,world!</html> 检测网页对应的HTML纯文本。
说明 urlcontent字段二选一。

返回数据

名称 类型 示例值 描述
code Integer 200 错误码,和HTTP状态码一致。

更多信息,请参见公共错误码

msg String OK 请求消息的响应信息。
dataId String test4lNSMdggA0c56MMvfYoh4e-1mwxpx 检测对象对应的数据ID。
说明 如果在检测请求参数中传入了dataId,则此处返回对应的dataId
taskId String wp5$7n$hD74qu4CrNWZlR7Sr-1ttC3T 要查询的检测任务的taskId列表。数组中的元素个数不超过100个。

您在提交检测任务后,可以从返回数据中获取检测任务的taskId

url String http://test.html 检测对象的URL。

示例

请求示例

{
    "textScenes": [
        "antispam"
    ],
    "imageScenes": [
        "porn"
    ],
    "tasks": [
        {
            "dataId": "test4lNSMdggA0c56MMvfYoh4e-1mwxpx",
            "url": "http://test.html"
        }
    ]
}
正常返回示例
{
    "code": 200,
    "msg": "OK",
    "requestId": "95AD868A-F5D2-4AEA-96D4-E0273B8E074C",
    "data": [
        {
            "code": 200,
            "msg": "OK",
            "dataId": "test4lNSMdggA0c56MMvfYoh4e-1mwxpx",
            "taskId": "wp5$7n$hD74qu4CrNWZlR7Sr-1ttC3T",
            "url": "http://test.html"
        }
    ]
}