本文介绍了调用文本检测接口(/green/text/scan)进行文本内容审核的方法。文本审核帮助您检测指定的中文或英文文本中是否包含违规信息,例如,色情、广告、灌水、渉政、辱骂等。

使用说明

业务接口:/green/text/scan,表示文本检测。

您可以调用该接口创建文本内容检测任务。关于如何构造HTTP请求,请参见请求结构;您也可以直接选用已构造好的HTTP请求,更多信息,请参见SDK概览

说明 文本审核默认识别中文,如需识别其他语种(例如,英语、法语、德语、印尼语、马来语、葡萄牙语、西班牙语、泰文、越南、日语、阿拉伯语、菲律宾语)中的风险内容,请提交工单联系我们进行调整,以保证识别的效果。

计费信息:

该接口为收费接口。关于计费方式,请参见内容安全产品定价

QPS限制

本接口的单用户QPS限制为100次/秒。超过限制,API调用会被限流,这可能会影响您的业务,请合理调用。

请求参数

名称 类型 是否必选 示例值 描述
bizType String default 该字段用于标识您的业务场景。您可以通过内容安全控制台创建业务场景(具体操作,请参见自定义机审标准)。
scenes StringArray ["antispam"] 指定检测场景,取值:antispam,表示文本内容检测。
tasks JSONArray 指定检测对象,JSON数组中的每个元素是一个检测任务结构体。最多支持100个元素,即每次提交100条内容进行检测,支持100个元素的前提是需要将并发任务调整到100个以上。关于每个元素的具体结构描述,请参见task
表 1. task
名称 类型 是否必选 示例值 描述
clientInfo JSONObject 客户端信息,请参见公共参数中的公共查询参数。
服务器会把全局的clientInfo和此处独立的clientInfo合并。
说明 独立的clientInfo优先级更高。
dataId String cfd33235-71a4-468b-8137-a5ffe323a7e8 检测对象对应的数据ID。

由大小写英文字母、数字、下划线(_)、短划线(-)、英文句号(.)组成,不超过128个字符,可以用于唯一标识您的业务数据。

content String 本校小额贷款,安全、快捷、方便、无抵押,随机随贷,当天放款,上门服务。 待检测文本,最长10000个中文字符(包含标点)。

返回数据

名称 类型 示例值 描述
code Integer 200 错误码,和HTTP状态码一致。

更多信息,请参见公共错误码

msg String OK 请求消息的响应消息。
dataId String cfd33235-71a4-468b-8137-a5ffe323a7e8 检测对象对应的数据ID。
说明 如果在检测请求参数中传入了dataId,则此处返回对应的dataId
taskId String txt6HB8NQoEbU@5fosnj2xVEM-1tAokr 检测任务的ID。
content String 本校小额贷款,安全、快捷、方便、无抵押,随机随贷,当天放款,上门服务。 被检测文本,和调用请求中的待检测文本对应。
filteredContent String 本校****,安全、快捷、方便、***,随机随贷,当天放款,****。 如果被检测文本命中了自定义关键词词库中的关键词,则会返回当前字段,并将命中的关键词替换为星号(*)。

您可以通过调用创建文本库API或者在控制台上自定义关键词。更多内容,请参见创建文本库自定义文本库

results JSONArray 返回结果。调用成功时(code=200),返回结果中包含一个或多个元素。每个元素是个结构体,具体结构描述,请参见result
表 2. result
名称 类型 示例值 描述
scene String antispam 检测场景,和调用请求中的场景对应。
suggestion String block 建议您执行的后续操作。取值:
  • pass:文本正常,可以直接放行。
  • review:文本需要进一步人工审核。
  • block:文本违规,可以直接删除或者限制公开。
label String porn 文本垃圾检测结果的分类。取值:
  • normal:正常文本
  • spam:含垃圾信息
  • ad:广告
  • politics:涉政
  • terrorism:暴恐
  • abuse:辱骂
  • porn:色情
  • flood:灌水
  • contraband:违禁
  • meaningless:无意义
  • harmful:不良场景
  • customized:自定义(例如命中自定义关键词)
rate Float 99.91 置信度分数,取值范围:0(表示置信度最低)~100(表示置信度最高)。
如果suggestionpass,则置信度越高,表示内容正常的可能性越高;如果suggestionreviewblock,则置信度越高,表示内容违规的可能性越高。
注意 建议您参考suggestionlabel(或者部分接口返回的sublabel)结果用于内容违规判定。
extras JSONObject {"userId":"xxx"} 附加信息,扩展字段。
details JSONArray 命中风险的详细信息,一条文本可能命中多条风险详情。具体结构描述,请参见detail
表 3. detail
名称 类型 示例值 描述
label String porn 文本命中风险的分类。取值:
  • spam:含垃圾信息
  • ad:广告
  • politics:涉政
  • terrorism:暴恐
  • abuse:辱骂
  • porn:色情
  • flood:灌水
  • contraband:违禁
  • meaningless:无意义
  • harmful:不良场景
  • customized:自定义(例如命中自定义关键词)
contexts JSONArray 命中该风险的上下文信息。具体结构描述,请参见context
表 4. context
名称 类型 示例值 描述
context String 上门服务 检测文本命中的风险关键词,如果命中了关键词会返回该内容,如果命中了算法模型,则不会返回该字段。
positions JSONArray [{"startPos":1, "endPos":10}] 如果命中关键词,会返回该词在原始文本中的位置。
libName String 您自定义的词库名称 命中自定义词库时,才会返回当前字段。取值为创建词库时设置的词库名称。
libCode String 123456 命中您自定义文本库时,才会返回当前字段。取值为创建风险文本库后系统返回的文本库code。
ruleType String ip 命中行为规则时,才会返回当前字段。取值:
  • user_id
  • ip
  • umid
  • content
  • similar_content
  • imei
  • imsi

示例

请求示例
{
     "scenes": [
        "antispam"
    ],
     "tasks": [
          {
               "dataId": "cfd33235-71a4-468b-8137-a5ffe323a7e8",
               "content": "本校小额贷款,安全、快捷、方便、无抵押,随机随贷,当天放款,上门服务。"
        }
    ]
}
正常返回示例
{
  "code": 200,
  "data": [
    {
      "code": 200,
      "content": "本校小额贷款,安全、快捷、方便、无抵押,随机随贷,当天放款,上门服务。",
      "dataId": "cfd33235-71a4-468b-8137-a5ffe323a7e8",
      "filteredContent": "本校****,安全、快捷、方便、***,随机随贷,当天放款,****。",
      "msg": "OK",
      "results": [
        {
          "details": [
            {
              "contexts": [
                {
                  "context": "无抵押",
                  "positions": [
                    {
                      "endPos": 19,
                      "startPos": 16
                    }
                  ]
                },
                {
                  "context": "小额贷款",
                  "positions": [
                    {
                      "endPos": 6,
                      "startPos": 2
                    }
                  ]
                }
              ],
              "label": "spam"
            },
            {
              "contexts": [
                {
                  "context": "上门服务",
                  "libCode": "123456",
                  "libName": "您自定义的词库名称",
                  "positions": [
                    {
                      "endPos": 34,
                      "startPos": 30
                    }
                  ]
                }
              ],
              "label": "porn"
            }
          ],
          "label": "porn",
          "rate": 99.91,
          "scene": "antispam",
          "suggestion": "block"
        }
      ],
      "taskId": "txt6HB8NQoEbU@5fosnj2xVEM-1tAokr"
    }
  ],
  "msg": "OK",
  "requestId": "25711794-BF6D-4F32-A735-09CA21197D32"
}