本文提供了调用文本垃圾检测任务的具体内容,旨在帮助您编写程序构建HTTP调用请求。

  • 关于如何构造HTTP请求,请参考请求结构
  • 您也可以直接选用已构造好的HTTP请求,具体请参考SDK参考
说明 推荐您使用本文介绍的新版API,该版本经过全新设计更易使用;如果您使用旧版本SDK,您可以 单击下载旧版本文档

描述

业务接口/green/text/scan

检测文本中是否包含违规信息。

关于scene与label参数

在提交检测任务时,您需要指定scenes场景参数;而在检测返回结果中,则包含了您指定的场景对应的label分类参数。

在文本反垃圾中,scene与label的对应关系如下:
功能 描述 scene label
垃圾文本检测 结合行为、内容,采用多维度、多模型、多检测手段,识别文本中的垃圾内容,规避色情、广告、灌水、渉政、辱骂等内容风险。 antispam
  • normal:正常文本
  • spam:含垃圾信息
  • ad:广告
  • politics:涉政
  • terrorism:暴恐
  • abuse:辱骂
  • porn:色情
  • flood:灌水
  • contraband:违禁
  • meaningless:无意义
  • customized:自定义(比如命中自定义关键词)

请求参数

关于在请求中必须包含的公共请求参数,请参考公共参数

请求body是一个结构体,结构说明如下:
名称 类型 是否必需 描述
bizType 字符串 自定义业务类型,由业务方提供。
每个bizType对应不同的算法/模型,运维人员可以为某一bizType动态地增加、删除要检测的风险场景。通过配置,后端根据该字段对请求做不同处理。
说明 该字段优先级高于 scenes字段。
scenes 字符串数组 指定检测场景,取值:antispam
tasks JSON数组 文本检测任务列表,包含一个或多个元素。每个元素是个结构体,最多可添加100个元素,即最多对100段文本进行检测。每个元素的具体结构描述见task
表 1. task
名称 类型 是否必需 描述
clientInfo JSON结构体 客户端信息,参考公共参数中的公共查询参数。
服务器会把全局的 clientInfo和此处独立的 clientInfo合并。
说明 独立的 clientInfo优先级更高。
dataId 字符串 数据Id。需要保证在一次请求中所有的Id不重复。
content 字符串 待检测文本,最长4,000个字符。
time 整型 内容创建/编辑时间,单位为ms。
category 字符串 内容类别,取值范围:
  • post
  • reply
  • comment
  • title
  • others
说明 支持自定义其他类型,但长度不得超过64字节。
action 字符串 操作类型,取值范围:
  • new
  • edit
  • share
  • others
说明 支持自定义其他操作类型,但长度不得超过64字节。
relatedDataId 字符串 相关的dataId。当contentType=reply/comment时,该字段表示相关的主贴或对应的commentdataId
relatedContent 字符串 相关字符串。当contentType=reply/comment时,该字段表示主贴内容或对应的comment

返回参数

返回结果说明,参见返回结果

返回body中的Data字段是JSON数组,每一个元素包含如下字段:
名称 类型 是否必需 描述
code 整形 错误码,和HTTP的status code一致。
msg 字符串 错误描述信息。
dataId 字符串 对应请求的dataId
taskId 字符串 该检测任务的ID。
content 字符串 对应请求的内容。
results 数组 返回结果。调用成功时(code=200),返回结果中包含一个或多个元素。每个元素是个结构体,具体结构描述见result
表 2. result
名称 类型 是否必需 描述
scene 字符串 检测场景,和调用请求中的场景对应。
suggestion 字符串 建议用户执行的操作,取值范围:
  • pass:文本正常
  • review:需要人工审核
  • block:文本违规,可以直接删除或者做限制处理
label 字符串 检测结果的分类,与具体的scene对应。取值范围参考scene 和 label说明
rate 浮点数 结果为该分类的概率,取值范围为[0.00-100.00]。值越高,表示越有可能属于该分类。
说明 分值仅供参考,您需要关注 labelsuggestion内容。
extras JSON对象 附加信息。例如,命中了您自定义的词库时,返回词库code。该值将来可能会调整,建议您不要在业务上进行依赖。
details 数组 命中风险的详细信息。具体结构描述见detail
表 3. detail
名称 类型 是否必需 描述
label 字符串 文本命中风险的分类,与具体的scene对应。取值范围参考scene 和 label说明
contexts 数组 命中该风险的上下文信息。具体结构描述见context
表 4. context
名称 类型 是否必需 描述
context 字符串 命中风险的内容。
libName 字符串 命中自定义词库时,才有本字段。取值为创建词库时填写的词库名称。
ruleType 字符串 命中行为规则时,才有该字段。可能取值包括:
  • user_id
  • ip
  • umid
  • content

示例

请求示例
{
  "scenes": ["antispam"],
  "tasks": [
    {
      "dataId": "test1Xtxl$ZwAww4z13yeo45@9-1mwd7N",
      "content": "test foo ...", 
      "category": "post",
      "action": "new"
    },
    {
      "dataId": "test7fupOuE64mM6rKEHRr5bwt-1mwwPH",
      "content": "test bar ...", 
      "category": "post",
      "action": "new"
    }
  ]
}
返回示例
{
  "msg": "OK", 
  "code": 200, 
  "requestId": "33921869-CF8A-4E62-8C31-44F37341FFC1"
  "data": [
    { 
      "code": 200, 
      "msg": "OK",
      "dataId": "test1Xtxl$ZwAww4z13yeo45@9-1mwd7N", 
      "taskId": "txt3VayNFGf43J6S9mHYp1HYJ-123mfd", 
      "content": "test foo ...", 
      "results": [
        {
          "rate": 99.91, 
          "scene": "antispam", 
          "suggestion": "pass", 
          "label": "normal"
        }
      ]
    },
    { 
      "code": 200, 
      "msg": "OK",
      "dataId": "test7fupOuE64mM6rKEHRr5bwt-1mwwPH", 
      "taskId": "txt3VayNFGf43J6S9mHYp1HYJ-dfadfd", 
      "content": "test bar ...", 
      "results": [
        {
          "rate": 99.91, 
          "scene": "antispam", 
          "suggestion": "pass", 
          "label": "normal"
        }
      ]
    }
  ]
}