本文提供了调用文本垃圾检测任务的具体内容,旨在帮助您编写程序构建HTTP调用请求。

  • 关于如何构造HTTP请求,请参见请求结构
  • 您也可以直接选用已构造好的HTTP请求,具体请参见SDK参考

描述

业务接口:/green/text/scan

检测文本中是否包含违规信息。

关于scene与label参数

在提交检测任务时,您需要指定scenes场景参数;而在检测返回结果中,则包含了您指定的场景对应的label分类参数。

在文本反垃圾中,scene与label的对应关系如下:
功能 描述 scene label
垃圾文本检测 结合行为、内容,采用多维度、多模型、多检测手段,识别文本中的垃圾内容,规避色情、广告、灌水、渉政、辱骂等内容风险。 antispam
  • normal:正常文本
  • spam:含垃圾信息
  • ad:广告
  • politics:涉政
  • terrorism:暴恐
  • abuse:辱骂
  • porn:色情
  • flood:灌水
  • contraband:违禁
  • meaningless:无意义
  • customized:自定义(例如命中自定义关键词)

请求参数

关于在请求中必须包含的公共请求参数,请参考公共参数

请求body是一个结构体,结构说明如下:
名称 类型 是否必需 描述
bizType 字符串 该字段用于标识业务场景。针对不同的业务场景,您可以配置不同的内容审核策略,以满足不同场景下不同的审核标准或算法策略的需求。您可以通过云盾内容安全控制台创建业务场景(bizType),或者通过工单联系我们帮助您创建业务场景。
scenes 字符串数组 指定检测场景,取值:antispam
tasks JSON数组 文本检测任务列表,包含一个或多个元素。每个元素是个结构体,最多可添加100个元素,即最多对100段文本进行检测。每个元素的具体结构描述见task
表 1. task
名称 类型 是否必需 描述
clientInfo JSON结构体 客户端信息,参见公共参数中的公共查询参数。
服务器会把全局的clientInfo和此处独立的clientInfo合并。
说明 独立的clientInfo优先级更高。
dataId 字符串 数据Id。需要保证在一次请求中所有的Id不重复。
content 字符串 待检测文本,最长10000个字符。

返回参数

返回结果说明,参见返回结果

返回body中的Data字段是JSON数组,每一个元素包含如下字段:
名称 类型 是否必需 描述
code 整型 错误码,和HTTP的status code一致。
msg 字符串 错误描述信息。
dataId 字符串 对应请求的dataId
taskId 字符串 该检测任务的ID。
content 字符串 对应请求的内容。
filteredContent 字符串 如果检测文本命中您自定义关键词词库中的词,该字段会返回,并将命中的关键词替换为“*”。
results 数组 返回结果。调用成功时(code=200),返回结果中包含一个或多个元素。每个元素是个结构体,具体结构描述见result
表 2. result
名称 类型 是否必需 描述
scene 字符串 检测场景,和调用请求中的场景对应。
suggestion 字符串 建议用户执行的操作,取值范围:
  • pass:文本正常
  • review:需要人工审核
  • block:文本违规,可以直接删除或者做限制处理
label 字符串 检测结果的分类,与具体的scene对应。取值范围参考scene 和 label说明
rate 浮点数 结果为该分类的概率,取值范围为[0.00-100.00]。值越高,表示越有可能属于该分类。
说明 分值仅供参考,您需要关注labelsuggestion内容。
extras JSON对象 附加信息,扩展字段。
details 数组 命中风险的详细信息,一条文本可能命中多条风险详情。具体结构描述见detail
表 3. detail
名称 类型 是否必需 描述
label 字符串 文本命中风险的分类,与具体的scene对应。取值范围参考scene 和 label说明
contexts 数组 命中该风险的上下文信息。具体结构描述见context
hintWords JSON数组 文本命中的关键词信息,用于提示您违规的原因,可能会返回多个命中的关键词。具体结构描述见hintWord
表 4. context
名称 类型 是否必需 描述
context 字符串 检测文本命中的风险内容上下文内容。如果命中了您自定义的风险文本库,则会返回命中的文本内容(关键词或相似文本)。
libName 字符串 命中自定义词库时,才有本字段。取值为创建词库时填写的词库名称。
libCode 字符串 命中您自定义文本库时,才会返回该字段,取值为创建风险文本库后系统返回的文本库code。
ruleType 字符串 命中行为规则时,才有该字段。可能取值包括:
  • user_id
  • ip
  • umid
  • content
  • similar_content
  • imei
  • imsi
表 5. hintWord
名称 类型 是否必需 描述
context 字符串 文本命中的系统关键词内容。

示例

请求示例
{
  "scenes": ["antispam"],
  "tasks": [
    {
      "dataId": "xxxx$rdBjUC1C-1rd9Ah",
      "content": "奥巴马特朗普昨日在白宫进行了会面"
    }
  ]
}
返回示例
{
    "msg":"OK",
    "code":200,
    "data":[
        {
            "msg":"OK",
            "code":200,
            "dataId":"xxxx$rdBjUC1C-1rd9Ah",
            "results":[
                {
                    "rate":50.0,
                    "suggestion":"review",
                    "details":[
                        {
                            "hintWords":[
                                {
                                    "context":"奥巴马"
                                }
                            ],
                            "contexts":[
                                {
                                    "libCode":"123456",
                                    "libName":"您自定义的词库名称",
                                    "context":"特朗普"
                                }
                            ],
                            "label":"politics"
                        }
                    ],
                    "label":"politics",
                    "scene":"antispam"
                }
            ],
            "content":"奥巴马特朗普昨日在白宫进行了会面",
            "filteredContent":"***特朗普昨日在白宫进行了会面",
            "taskId":"xxxxxxyyyyyy-xxxx"
        }
    ],
    "requestId":"yyyyyyyy-862F-4BAE-8B4E-xxxxxxx"
}