本文介绍了调用文本检测接口(/green/text/scan)进行文本内容审核的方法。文本审核帮助您检测指定的中文或英文文本中是否包含违规信息,例如色情、广告、灌水、渉政、辱骂等。

接口说明

业务接口:/green/text/scan,表示文本检测。

您可以调用该接口创建文本内容检测任务。关于如何构造HTTP请求,请参见请求结构;您也可以直接选用已构造好的HTTP请求,更多信息,请参见SDK概览

请求参数

名称 类型 是否必选 描述
bizType String 该字段用于标识您的业务场景。您可以通过内容安全控制台创建业务场景(具体操作,请参见自定义机审标准),或者提交工单联系我们帮助您创建业务场景。
scenes StringArray 指定检测场景,取值:antispam,表示文本内容检测。
tasks JSONArray 文本检测任务列表,包含一个或多个元素。每个元素是个结构体,最多可添加100个元素,即最多对100段文本进行检测。关于每个元素的具体结构描述,请参见task
表 1. task
名称 类型 是否必选 描述
clientInfo JSONObject 客户端信息,请参见公共参数中的公共查询参数。
服务器会把全局的clientInfo和此处独立的clientInfo合并。
说明 独立的clientInfo优先级更高。
dataId String 检测对象对应的数据ID。

由大小写英文字母、数字、下划线(_)、短划线(-)、英文句号(.)组成,不超过128个字符,可以用于唯一标识您的业务数据。

content String 待检测文本,最长10000个中文字符(包含标点)。

返回数据

名称 类型 描述
code Integer 错误码,和HTTP状态码一致。

更多信息,请参见公共错误码

msg String 错误描述信息。
dataId String 检测对象对应的数据ID。
说明 如果在检测请求参数中传入了dataId,则此处返回对应的dataId
taskId String 检测任务的ID。
content String 被检测文本,和调用请求中的待检测文本对应。
filteredContent String 如果被检测文本命中了自定义关键词词库中的关键词,则会返回当前字段,并将命中的关键词替换为星号(*)。
results JSONArray 返回结果。调用成功时(code=200),返回结果中包含一个或多个元素。每个元素是个结构体,具体结构描述,请参见result
表 2. result
名称 类型 描述
scene String 检测场景,和调用请求中的场景对应。
suggestion String 建议您执行的后续操作。取值:
  • pass:文本正常,可以直接放行。
  • review:文本需要进一步人工审核。
  • block:文本违规,可以直接删除或者限制公开。
label String 文本垃圾检测结果的分类。取值:
  • normal:正常文本
  • spam:含垃圾信息
  • ad:广告
  • politics:涉政
  • terrorism:暴恐
  • abuse:辱骂
  • porn:色情
  • flood:灌水
  • contraband:违禁
  • meaningless:无意义
  • customized:自定义(例如命中自定义关键词)
rate Float 置信度分数,取值范围:0(表示置信度最低)~100(表示置信度最高)。
如果suggestionpass,则置信度越高,表示内容正常的可能性越高;如果suggestionreviewblock,则置信度越高,表示内容违规的可能性越高。
注意 该值仅作为参考,强烈建议您不要在业务中使用。建议您参考suggestionlabel(或者部分接口返回的sublabel)结果用于内容违规判定。
extras JSONObject 附加信息,扩展字段。
details JSONArray 命中风险的详细信息,一条文本可能命中多条风险详情。具体结构描述,请参见detail
表 3. detail
名称 类型 描述
label String 文本命中风险的分类。取值:
  • spam:含垃圾信息
  • ad:广告
  • politics:涉政
  • terrorism:暴恐
  • abuse:辱骂
  • porn:色情
  • flood:灌水
  • contraband:违禁
  • meaningless:无意义
  • customized:自定义(例如命中自定义关键词)
contexts JSONArray 命中该风险的上下文信息。具体结构描述,请参见context
hintWords JSONArray 文本命中的关键词信息,用于提示您违规的原因,可能会返回多个命中的关键词。具体结构描述,请参见hintWord
说明 默认不返回该字段。如果您有需要,请提交工单联系我们进行配置。
表 4. context
名称 类型 描述
context String 检测文本命中的风险内容的上下文信息。如果命中了您自定义的风险文本库,则会返回命中的文本内容(关键词或相似文本)。
libName String 命中自定义词库时,才会返回当前字段。取值为创建词库时设置的词库名称。
libCode String 命中您自定义文本库时,才会返回当前字段。取值为创建风险文本库后系统返回的文本库code。
ruleType String 命中行为规则时,才会返回当前字段。取值:
  • user_id
  • ip
  • umid
  • content
  • similar_content
  • imei
  • imsi
表 5. hintWord
名称 类型 描述
context String 文本命中的系统关键词内容。

示例

请求示例
{
     "scenes": [
        "antispam"
    ],
     "tasks": [
          {
               "dataId": "xxxx$rdBjUC1C-1rd9Ah",
               "content": "奥巴马特朗普昨日在白宫进行了会面"
        }
    ]
}
正常返回示例
{
      "msg": "OK",
      "code": 200,
      "data": [
            {
                  "msg": "OK",
                  "code": 200,
                  "dataId": "xxxx$rdBjUC1C-1rd9Ah",
                  "results": [
                        {
                              "rate": 50.0,
                              "suggestion": "review",
                              "details": [
                                    {
                                          "hintWords": [
                                                {
                                                      "context": "奥巴马"
                                }
                            ],
                                          "contexts": [
                                                {
                                                      "libCode": "123456",
                                                      "libName": "您自定义的词库名称",
                                                      "context": "特朗普"
                                }
                            ],
                                          "label": "politics"
                        }
                    ],
                              "label": "politics",
                              "scene": "antispam"
                }
            ],
                  "content": "奥巴马特朗普昨日在白宫进行了会面",
                  "filteredContent": "***特朗普昨日在白宫进行了会面",
                  "taskId": "xxxxxxyyyyyy-xxxx"
        }
    ],
      "requestId": "yyyyyyyy-862F-4BAE-8B4E-xxxxxxx"
}