本文提供了调用文件检测任务的具体内容,旨在帮助您编写程序构建HTTP调用请求。

  • 关于如何构造HTTP请求,请参考请求结构
  • 您也可以直接选用已构造好的HTTP请求,具体请参考SDK参考
说明 推荐您使用本文介绍的新版API,该版本经过全新设计更易使用;如果您使用旧版本SDK,您可以 单击下载旧版本文档

描述

业务接口/green/file/asyncscan

提交文件检测任务,自动解析文件内容,并分别检测其中的图片和文本内容。

使用方法和付费价格与图片检测以及文本反垃圾一致。文本按照请求数收费,一次请求支持检测5,000字符,图片按照实际图片数收费。

使用限制
  • 支持的文件对象类型:
    • 文本内容支持以下格式:PDF,WORD,TXT,doc,ppt,excel,outlook,visio,txt,zip,tar,RTF。
    • 图片内容支持以下格式:PDF。
  • 支持的文件大小为5M以内。
  • 限制单用户5QPS。如果您有更高的需求,请通过工单联系我们。

关于scene与label参数

在提交检测任务时,您需要指定scenes场景参数;而在检测返回结果中,则包含与您指定的场景对应的label结果分类参数。

在文件内容反垃圾中,scene与label的对应关系如下:
场景 描述 imageScenes/textScenes label
文件中图片检测 识别文件中的图片包含的特定信息。 传入imageScenes,取值范围:
  • porn:鉴黄
  • ad:广告
  • terrorism:暴恐涉政
  • sface:敏感人脸
  • qrcode:二维码
  • live:不良场景
  • logo:logo识别
特定场景对应的label取值同图片检测
文件中文本检测 识别文件中的文本包含的特定信息。 传入textScenes,取值:antispam 特定场景对应的label取值同文本反垃圾

请求参数

关于在请求中必须包含的公共请求参数,请参考公共参数

请求body是一个JSON对象,字段说明如下:
说明 检测文本需要传入 textScenes;检测图片需要传入 imageScenes;两个都检测就都传入。每个场景的使用方法和结果与图片检测和文本反垃圾相同。
名称 类型 是否必需 描述
bizType String 自定义业务类型,由业务方提供。
每个bizType对应不同的算法/模型,运维人员可以为某一bizType动态地增加、删除要检测的风险场景。通过配置,后端根据该字段对请求做不同处理。
说明 该字段优先级高于 scenes字段。
textScenes String数组 检测内容包含文本时,指定检测场景,取值:antispam
说明 该参数与 imageScenes不可同时为空。
imageScenes String数组 检测内容包含图片时,指定检测场景,可选值包括:
  • porn:鉴黄
  • ad:广告
  • terrorism:暴恐涉政
  • sface:敏感人脸
  • qrcode:二维码
  • live:不良场景
  • logo:logo识别
说明
  • 支持多场景(scenes)一起检测, 比如使用scenes=[“porn”, “terrorism”],对一张图片同时进行鉴黄和暴恐识别。
  • 该参数与textScenes不可同时为空。
callback 字符串 异步检测结果回调通知您的URL,支持HTTP/HTTPS。
说明 该字段为空时,您必须定时检索检测结果。
seed 字符串 该值用于回调通知请求中的签名。
说明 传入 callback时,该字段必须提供。
tasks JSON数组 JSON数组中的每个元素是一个文件检测任务结构体。最多可以添加5个,即最多对5个文件进行检测。每个元素的具体结构描述见task
表 1. task
名称 类型 是否必需 描述
clientInfo JSON结构体 客户端信息,参考公共参数中的公共查询参数。
服务器会把全局的 clientInfo和此处独立的 clientInfo合并。
说明 独立的 clientInfo优先级更高。
dataId String 数据Id。需要保证在一次请求中所有的Id不重复。
url String 文件下载的URL。

结果回调通知参数(callback、seed)

使用说明

如果您在请求参数中指定了回调通知参数callback,被回调callback值,即一个http(s)协议接口的URL,则需要支持POST方法,传输数据编码采用utf-8,并且支持两个表单参数checksumcontent。系统将按以下描述的生成规则和格式设置checksum和content的值,调用您的callback接口返回检测内容。

您服务端接收到我们推送的结果后,返回的HTTP状态码为200时,表示推送成功,其他的HTTP状态码均视为您接收失败,我们将最多重复推送16次。

回调结果参数的生成规则
名称 类型 描述
checksum String 用户uid + seed + content拼成字符串,通过SHA256算法生产。用户UID即账号ID,您可在阿里云控制台上查询。为防篡改,您可以在获取到推送结果时,按此算法生成字符串,与checksum做一次校验。
content String JSON字符串格式,请自行解析反转成JSON对象。content结果格式参见下文。
content结果格式
{
      "code":200,
      "msg":"OK",
      "dataId":"videoId xxx",
      "taskId":"taskId xxx",
      "results":[
        {
          "label":"porn",
          "rate":99.2,
          "scene":"porn",
          "suggestion":"block"
        }
      ]
}

返回参数

返回结果说明,参见返回结果

返回body中的data字段是JSON数组,包含以下字段:
名称 类型 是否必需 描述
code int 错误码,和HTTP的status code一致。
taskId String 该检测任务的ID。
dataId String 对应的请求中的dataId
msg String 错误描述信息。

示例

请求示例
{
    "bizType": "aligreen-test",
    "textScenes": ["antispam"],
    "imageScenes": ["porn", "ad"],
    "tasks": [
        {
            "dataId": "test2NInmO$tAON6qYUrtCRgLo-1mwxdi",
            "url": "https://img.alicdn.com/tfs/TB1urBOQFXXXXbMXFXXXXXXXXXX-1442-257.pdf"
        },
        {
            "dataId": "test2NInmO$tAON6qYUrtCRgLo-aksdjak",
            "url": "https://img.alicdn.com/tfs/TB1urBOQFXXXXbMXFXXXXXXXXXX-1442-257.pdf"
        }
    ]
}
返回示例
{
    "code":200,
    "data":[
        {
            "code":280,
            "dataId":"testCvlKbUe4U@6uT6XJxh3G5-1oB8zu",
            "msg":"PROCESSING - queue",
            "taskId":"file_t_7Efx6ndTriK5Xx$rD2RFkr-1oB8zu"
        }
    ],
    "msg":"OK",
    "requestId":"B15C5A4F-9752-4F25-9DF8-9FF3446E72C9"
}