本文提供了调用文本垃圾检测任务的具体内容,帮助您编写程序构建HTTP调用请求。您可以调用本接口检测指定中文、英文文本中是否包含违规信息,例如色情、广告、灌水、渉政、辱骂等。

  • 关于如何构造HTTP请求,请参见请求结构
  • 您也可以直接选用已构造好的HTTP请求,具体请参见SDK 概览

描述

业务接口:/green/text/scan

请求参数

名称 类型 是否必须 描述
bizType 字符串 该字段用于标识业务场景。针对不同的业务场景,您可以配置不同的内容审核策略,以满足不同场景下不同的审核标准或算法策略的需求。您可以通过云盾内容安全控制台创建业务场景(bizType),或者通过工单联系我们帮助您创建业务场景。
scenes 字符串数组 指定检测场景,取值:antispam
tasks JSON数组 文本检测任务列表,包含一个或多个元素。每个元素是个结构体,最多可添加100个元素,即最多对100段文本进行检测。每个元素的具体结构描述请参见task
表 1. task
名称 类型 是否必须 描述
clientInfo JSON结构体 客户端信息,请参见公共参数中的公共查询参数。
服务器会把全局的clientInfo和此处独立的clientInfo合并。
说明 独立的clientInfo优先级更高。
dataId 字符串 数据ID。需要保证在一次请求中所有的ID不重复。
content 字符串 待检测文本,最长10000个中文字符(含标点)。

返回参数

名称 类型 是否必须 描述
code 整型 错误码,和HTTP的status code一致。
msg 字符串 错误描述信息。
dataId 字符串 检测对象对应的数据ID。
说明 如果在请求参数中传入了dataId,则此处返回对应的dataId
taskId 字符串 本次检测任务的ID。
content 字符串 被检测文本,和调用请求中的待检测文本对应。
filteredContent 字符串 如果被检测文本命中了自定义关键词词库中的关键词,则会返回当前字段,并将命中的关键词替换为星号(*)。
results 数组 返回结果。调用成功时(code=200),返回结果中包含一个或多个元素。每个元素是个结构体,具体结构描述请参见result
表 2. result
名称 类型 是否必须 描述
scene 字符串 检测场景,和调用请求中的场景对应。
suggestion 字符串 建议您执行的后续操作。取值:
  • pass:文本正常,可以直接放行
  • review:文本需要进一步人工审核
  • block:文本违规,可以直接删除或者限制公开
label 字符串 文本垃圾检测结果的分类。取值:
  • normal:正常文本
  • spam:含垃圾信息
  • ad:广告
  • politics:涉政
  • terrorism:暴恐
  • abuse:辱骂
  • porn:色情
  • flood:灌水
  • contraband:违禁
  • meaningless:无意义
  • customized:自定义(例如命中自定义关键词)
rate 浮点数 结果属于当前分类的概率,取值范围:0.00~100.00。值越高,表示越有可能属于当前分类。
说明 分值仅供参考,您需要关注labelsuggestion内容。
extras JSON对象 附加信息,扩展字段。
details 数组 命中风险的详细信息,一条文本可能命中多条风险详情。具体结构描述请参见detail
表 3. detail
名称 类型 是否必须 描述
label 字符串 文本命中风险的分类。取值:
  • normal:正常文本
  • spam:含垃圾信息
  • ad:广告
  • politics:涉政
  • terrorism:暴恐
  • abuse:辱骂
  • porn:色情
  • flood:灌水
  • contraband:违禁
  • meaningless:无意义
  • customized:自定义(例如命中自定义关键词)
contexts 数组 命中该风险的上下文信息。具体结构描述请参见context
hintWords JSON数组 文本命中的关键词信息,用于提示您违规的原因,可能会返回多个命中的关键词。具体结构描述请参见hintWord
表 4. context
名称 类型 是否必须 描述
context 字符串 检测文本命中的风险内容的上下文信息。如果命中了您自定义的风险文本库,则会返回命中的文本内容(关键词或相似文本)。
libName 字符串 命中自定义词库时,才会返回当前字段。取值为创建词库时设置的词库名称。
libCode 字符串 命中您自定义文本库时,才会返回当前字段。取值为创建风险文本库后系统返回的文本库code。
ruleType 字符串 命中行为规则时,才会返回当前字段。取值:
  • user_id
  • ip
  • umid
  • content
  • similar_content
  • imei
  • imsi
表 5. hintWord
名称 类型 是否必须 描述
context 字符串 文本命中的系统关键词内容。

示例

请求示例
{
     "scenes": [
        "antispam"
    ],
     "tasks": [
          {
               "dataId": "xxxx$rdBjUC1C-1rd9Ah",
               "content": "奥巴马特朗普昨日在白宫进行了会面"
        }
    ]
}
返回示例
{
      "msg": "OK",
      "code": 200,
      "data": [
            {
                  "msg": "OK",
                  "code": 200,
                  "dataId": "xxxx$rdBjUC1C-1rd9Ah",
                  "results": [
                        {
                              "rate": 50.0,
                              "suggestion": "review",
                              "details": [
                                    {
                                          "hintWords": [
                                                {
                                                      "context": "奥巴马"
                                }
                            ],
                                          "contexts": [
                                                {
                                                      "libCode": "123456",
                                                      "libName": "您自定义的词库名称",
                                                      "context": "特朗普"
                                }
                            ],
                                          "label": "politics"
                        }
                    ],
                              "label": "politics",
                              "scene": "antispam"
                }
            ],
                  "content": "奥巴马特朗普昨日在白宫进行了会面",
                  "filteredContent": "***特朗普昨日在白宫进行了会面",
                  "taskId": "xxxxxxyyyyyy-xxxx"
        }
    ],
      "requestId": "yyyyyyyy-862F-4BAE-8B4E-xxxxxxx"
}