本文介绍了调用网页同步检测接口(/green/webpage/scan)进行网页内容审核的方法。网页内容审核帮助您检测网页上图片、文本是否包含违规内容,并返回内容审核的结果以及风险标签。该接口支持检测HTTP或者HTTPS协议访问的网页。
使用说明
业务接口:/green/webpage/scan,表示网页同步检测。
您可以调用该接口创建网页同步检测任务。关于如何构造HTTP请求,请参见请求结构;您也可以直接选用已构造好的HTTP请求,更多信息,请参见SDK概览。
计费信息:
该接口为收费接口。关于计费方式,请参见内容安全产品定价。
QPS限制
本接口的单用户QPS限制为50次/秒。超过限制,API调用会被限流,这可能会影响您的业务,请合理调用。
请求参数
名称 | 类型 | 是否必选 | 示例值 | 描述 |
---|---|---|---|---|
bizType | String | 否 | default | 该字段用于标识您的业务场景。您可以通过内容安全控制台创建业务场景(具体操作,请参见自定义机审标准)。 |
textScenes | StringArray | 否 | ["antispam"] | 表示网页文本要检测的场景,唯一取值:antispam。
说明 textScenes和imageScenes字段至少选择一个传入。
|
imageScenes | StringArray | 否 | ["porn","ad"] | 表示网页图片要检测的场景,取值:
说明 textScenes和imageScenes字段至少选择一个传入。
|
tasks | JSONArray | 是 | 指定检测对象,JSON数组中的每个元素是一个检测任务结构体。最多支持100个元素,即每次提交100条内容进行检测,支持100个元素的前提是需要将并发任务调整到100个以上。关于具体结构描述,请参见task。 | |
returnHighlightHtml | Boolean | 否 | false | 指定是否高亮显示违规内容,取值:
|
名称 | 类型 | 是否必选 | 示例值 | 描述 |
---|---|---|---|---|
dataId | String | 否 | test4lNSMdggA0c56MMvfYoh4e-1mwxpx | 检测对象对应的数据ID。
由大小写英文字母、数字、下划线(_)、短划线(-)、英文句号(.)组成,不超过128个字符,可以用于唯一标识您的业务数据。 |
url | String | 否 | http://www.aliyundoc.com | 网页链接,支持HTTP、HTTP协议的网页检测。
说明 url与content字段二选一。
|
content | String | 否 | <html>hello,world!</html> | 检测网页对应的HTML纯文本。
说明 url与content字段二选一。
|
返回数据
名称 | 类型 | 示例值 | 描述 |
---|---|---|---|
code | Integer | 200 | 错误码,和HTTP状态码一致。
更多信息,请参见公共错误码。 |
msg | String | OK | 请求参数的响应消息。 |
taskId | String | wp5$7n$hD74qu4CrNWZlR7Sr-1ttC3T | 检测任务的ID。 |
dataId | String | test4lNSMdggA0c56MMvfYoh4e-1mwxpx | 检测对象对应的数据ID。
说明 如果在检测请求参数中传入了dataId,则此处返回对应的dataId。
|
suggestion | String | block | 建议您执行的后续操作,取值:
|
riskFrequency | JSONObject | { "porn":123, "terrorism":44} | 网页违规内容命中的风险类型和次数, 使用key-value键值对格式表示。其中,key表示命中的风险标签,value表示风险次数。 |
textResults | JSONArray | 文本扫描结果。
只有传入textScenes参数时,才返回该结果。该参数是一个JSON数组,关于每个元素返回的结构,请参见textResults。 |
|
imageResults | JSONArray | 图片扫描结果。
只有传入imageScenes参数时,才返回该结果。该参数是一个JSON数组,关于每个元素返回的结构,请参见imageResults。 |
|
highlightHtml | String | <html>xxx</html> | 高亮的html。 |
名称 | 类型 | 示例值 | 描述 |
---|---|---|---|
code | Integer | 200 | 错误码,和HTTP的status code一致。 |
msg | String | OK | 请求消息的响应信息。 |
dataId | String | test4lNSMdggA0c56MMvfYoh4e-1mwxpx | 检测对象对应的数据ID。
说明 如果在检测请求参数中传入了dataId,则此处返回对应的dataId。
|
taskId | String | wp5$7n$hD74qu4CrNWZlR7Sr-1ttC3T.txt-0 | 本次检测任务的ID。 |
results | JSONArray | 返回结果。调用成功时(code=200),返回结果中包含一个或多个元素。每个元素是个结构体,具体结构描述,请参见result。 |
名称 | 类型 | 示例值 | 描述 |
---|---|---|---|
scene | String | antispam | 网页中文本内容的检测场景,和调用请求中的textScenes参数对应。 |
suggestion | String | block | 建议您执行的后续操作。取值:
|
label | String | politics | 文本垃圾检测结果的分类。取值:
|
rate | Float | 99.91 | 置信度分数,取值范围:0(表示置信度最低)~100(表示置信度最高)。
如果suggestion为pass,则置信度越高,表示内容正常的可能性越高;如果suggestion为review或block,则置信度越高,表示内容违规的可能性越高。
重要 建议您参考suggestion和label(或者部分接口返回的sublabel)结果用于内容违规判定。
|
details | JSONArray | 命中风险的详细信息,一条文本可能命中多条风险详情。具体结构描述,请参见detail。 |
名称 | 类型 | 示例值 | 描述 |
---|---|---|---|
label | String | politics | 文本命中风险的分类,取值:
|
contexts | JSONArray | 命中该风险的上下文信息。具体结构描述,请参见context。 |
名称 | 类型 | 示例值 | 描述 |
---|---|---|---|
context | String | 兼职 | 检测文本命中的风险内容的上下文信息。如果命中了您自定义的风险文本库,则会返回命中的文本内容(关键词或相似文本)。 |
libName | String | 广告风险库1 | 命中自定义词库时,返回当前字段。取值为创建词库时设置的词库名称。 |
libCode | String | 12232 | 命中您自定义文本库时,返回当前字段。取值为创建风险文本库后系统返回的文本库code。 |
ruleType | String | content | 命中行为规则时,返回当前字段,取值:
|
名称 | 类型 | 示例值 | 描述 |
---|---|---|---|
code | Integer | 200 | 错误码,和HTTP状态码一致。
更多信息,请参见公共错误码。 |
msg | String | OK | 错误描述信息。 |
dataId | String | test4lNSMdggA0c56MMvfYoh4e-1mwxpx | 检测对象对应的数据ID。
说明 如果在检测请求参数中传入了dataId,则此处返回对应的dataId。
|
taskId | String | wp5$7n$hD74qu4CrNWZlR7Sr-1ttC3T.txt-0 | 检测任务的ID。 |
url | String | http://www.aliyundoc.com/xxxxx.jpg | 检测对象的URL。 |
results | JSONArray | 返回结果。调用成功时(code=200),返回结果中包含一个或多个元素。每个元素是个结构体,具体结构说明,请参见result。 |
名称 | 类型 | 示例值 | 描述 |
---|---|---|---|
scene | String | porn | 图片检测场景,和调用请求中的场景对应。取值:
|
label | String | politics | 图片的检测结果分类。不同检测场景的结果分类不同,具体如下:
|
suggestion | String | block | 建议您执行的后续操作,取值:
|
rate | Float | 99.91 | 置信度分数,取值范围:0(表示置信度最低)~100(表示置信度最高)。
如果suggestion为pass,则置信度越高,表示内容正常的可能性越高;如果suggestion为review或block,则置信度越高,表示内容违规的可能性越高。
重要 建议您参考suggestion和label(或者部分接口返回的sublabel)结果用于内容违规判定。
|
hintWordsInfo | JSONArray | [{"context":"敏感词"}] | 图片中含有广告或文字违规信息时,返回图片中广告文字命中的风险关键词信息。
说明 只有图文违规(ad)场景会返回该结果。
|
sfaceData | JSONArray | 图片中包含暴恐识涉政内容时,返回识别出来的暴恐涉政信息。具体结构描述,请参见sfaceData。
说明 只有图片暴恐涉政(terrorism)场景会返回该结果。
|
|
ocrData | StringArray | ["xxxxx", "yyyy"] | 识别到的图片中的完整文字信息。
说明 默认不返回。如果需要该结果,请联系商务经理。
|
名称 | 类型 | 示例值 | 描述 |
---|---|---|---|
rate | Float | 99.91 | 置信度分数,取值范围:0~100,置信度越高表示检测结果的可信度越高。建议您不要在业务中使用该分数。 |
url | String | http://www.aliyundoc.com | 被截断的图片的临时访问URL,地址有效期是5分钟。 |
名称 | 类型 | 示例值 | 描述 |
---|---|---|---|
x | Float | 49 | 以图片左上角为坐标原点,人脸区域左上角到y轴距离,单位:像素。 |
y | Float | 39 | 以图片左上角为坐标原点,人脸区域左上角到x轴距离,单位:像素。 |
w | Float | 97 | 人脸区域宽度,单位:像素。 |
h | Float | 131 | 人脸区域高度,单位:像素。 |
faces | JSONArray | [{"name":"命中人名","rate":91.54,"id":"AliFace_0123****"}] | 识别出的人脸信息,具体结构如下:
|
示例
请求示例
http(s)://[Endpoint]/green/webpage/scan
&<公共请求参数>
{
"textScenes": [
"antispam"
],
"imageScenes": [
"porn"
],
"tasks": [
{
"dataId": "test4lNSMdggA0c56MMvfYoh4e-1mwxpx",
"url": "http://www.aliyundoc.com"
}
]
}
正常返回示例
{
"msg": "OK",
"code": 200,
"data": [
{
"msg": "OK",
"code": 200,
"textResults": [
{
"msg": "OK",
"code": 200,
"results": [
{
"rate": 99.91,
"suggestion": "block",
"details": [
{
"contexts": [
{
"context": "xxxxx",
"positions": [
{
"startPos": 242616,
"endPos": 242624
}
]
}
],
"label": "politics"
}
],
"label": "politics",
"scene": "antispam"
}
],
"taskId": "wp5$7n$hD74qu4CrNWZlR7Sr-1ttC3T.txt-0"
}
],
"riskFrequency": {
"politics": 1
},
"suggestion": "block",
"taskId": "wp5$7n$hD74qu4CrNWZlR7Sr-1ttC3T"
}
],
"requestId": "B8C1C6BF-0D0A-4317-967E-2DC738CDEAEA"
}