文本审核增强版多语言服务

文本审核增强版升级多语言模型能力,能够自动判断语种,并支持更多的语种类型。结合国际化业务特性,提供审核策略和标签体系。本文介绍文本审核增强版多语言服务的内容以及使用方法。

功能特性

相比较文本审核1.0版本多语言审核服务,文本审核增强版采用单独的策略和标签体系,满足国际化业务特性。同时提供更多功能特性,简化业务使用并辅助人工审核。

对比项

文本审核增强版

文本审核1.0版本

多语言能力

支持38种语言类型。

支持18种语言类型。

审核能力

采用多种模型并行,结合语言和地区特性,策略更精确。

采用单个模型,结合语言特性,策略兼顾准确和召回。

标签体系

采用国际化标签体系,增加亵渎、地域等国际化标签,支持多个风险标签和细分标签。

沿用中文场景下的标签体系,仅支持单个风险标签。

接口功能

不需要指定输入语种,能够自动识别。审核后会返回语言类型和翻译后的英文内容,用于辅助人工审核。

需要指定输入语种,不返回翻译内容。

支持语种

文本审核增强版多语言服务目前支持38种语言类型。

语种类型

英文名

语言代码

英语

English

en

中文简体

Chinese

zh

中文繁体

Traditional Chinese

zh-tw

印度尼西亚语

Indonesian

id

马来语

Malay

ms

泰语

Thai

th

越南语

Vietnamese

vi

他加禄语

Tagalog

tl

印地语

Hindi

hi

阿拉伯语

Arabic

ar

土耳其语

Turkish

tr

法语

French

fr

德语

German

de

俄语

Russian

ru

葡萄牙语

Portuguese

pt

西班牙语

Spanish

es

意大利语

Italian

it

荷兰语

Dutch

nl

波兰语

Polish

pl

日语

Japanese

ja

韩语

Korean

ko

乌尔都语

Urdu

ur

维吾尔语

Uighur

ug

孟加拉语

Bengali

bn

波斯语

Persian

fa

瑞典语

Swedish

sv

丹麦语

Danish

da

挪威语

Norwegian

no

冰岛语

Icelandic

is

芬兰语

Finnish

fi

白俄罗斯语

Belarusian

be

立陶宛语

Lithuanian

lt

捷克语

Czech

cs

斯洛伐克语

Slovak

sk

匈牙利语

Hungarian

hu

希腊语

Modern Greek

el

罗马尼亚语

Romanian

ro

爱尔兰语

Irish

ga

国际化标签

文本审核增强版多语言服务采用国际化标签体系。如果内容存在多类风险,能够同时返回多个标签。标签分类包括但不限于如下所示:

标签类型

分类

一级标签(labels)

  • violence:暴恐

  • contraband:违禁品

  • sexuality:色情

  • profanity:亵渎辱骂

  • pullinTraffic:广告引流

  • regional:地域对立

  • C_customized:用户库命中

细分标签(riskTips)

细分标签采用xxx_yyy的格式返回。例如:contraband_Drugs

细分标签可用于定位具体原因,根据不同地区的合规要求进行处理。关于细分标签类型需联系运营人员。

计费说明

文本审核增强版服务支持按量后付费和资源包抵扣两种付费方式。

按量后付费

当您开通文本审核增强版服务后,默认付费方式是按量后付费,且按照实际用量结算当日费用,不调用服务不收费。

审核类型

支持的业务场景(服务)

计费单价

文本审核高级(text_advanced)

国际业务多语言检测:comment_multilingual_pro

15元/万次

资源包抵扣

如果您的审核量较大,或有相对固定的审核需求,建议预先购买资源包的方式。购买资源包规格越大,享受的折扣越大,支持叠加购买和使用。更多内容,请参见购买内容审核增强版抵扣资源包

该资源包用于内容审核增强版用量的抵扣,无法与内容安全流量包共享,具体的抵扣系数如下:

审核类型

支持的业务场景(服务)

抵扣系数

文本审核高级(text_advanced)

国际业务多语言检测:comment_multilingual_pro

抵扣系数为2,表示每成功调用一次接口,抵扣资源包的流量包容量规格2次。

例如购买的资源包的流量包容量规格为10次,当您成功调用1次接口,抵扣流量包容量规格2次,剩余8次。

接入指南

步骤一:开通服务

访问开通服务,开通文本审核增强版服务。

开通文本增强版服务后,默认付费方式是按量后付费,且按照实际用量结算当日费用,不调用服务不收费。接口接入使用后系统会按使用量自动出账,具体信息,请参见计费说明您也可以购买按量抵扣资源包,资源包相较于后付费存在一定阶梯折扣,适合使用量级可预期和较大的用户。

步骤二:为RAM用户授权

在接入SDK或者API之前,您需要为RAM用户授权。您可以为阿里云账号和RAM用户创建一个访问密钥(AccessKey)。在调用阿里云API时您需要使用AccessKey完成身份验证。获取方式,请参见获取AccessKey

  1. 使用RAM管理员登录RAM控制台

  2. 创建RAM用户。

    具体操作,请参见创建RAM用户

  3. 向RAM用户授权系统策略权限:AliyunYundunGreenWebFullAccess

    具体操作,请参见为RAM用户授权

    完成以上配置后,您可以使用RAM用户调用内容安全API。

步骤三:安装并接入SDK

目前支持的接入地域如下,文本审核增强版服务SDK请参考接入指南文本审核增强版通用服务部分。

地域

外网接入地址

内网接入地址

华东2(上海)

green-cip.cn-shanghai.aliyuncs.com

green-cip-vpc.cn-shanghai.aliyuncs.com

华北2(北京)

green-cip.cn-beijing.aliyuncs.com

green-cip-vpc.cn-beijing.aliyuncs.com

华东1(杭州)

green-cip.cn-hangzhou.aliyuncs.com

green-cip-vpc.cn-hangzhou.aliyuncs.com

华南1(深圳)

green-cip.cn-shenzhen.aliyuncs.com

green-cip-vpc.cn-shenzhen.aliyuncs.com

西南1(成都)

green-cip.cn-chengdu.aliyuncs.com

暂无

新加坡

green-cip.ap-southeast-1.aliyuncs.com

green-cip-vpc.ap-southeast-1.aliyuncs.com

说明

如果需要其他语言的SDK示例代码,您可以通过OpenAPI开发者门户在线调试工具调试API接口,该工具会自动生成相应API的SDK调用示例代码。

API

使用说明

业务接口:https://green-cip.{region}.aliyuncs.com

您可以调用该接口创建文本内容检测任务。关于如何构造HTTP请求,请参见请求结构;您也可以直接选用已构造好的HTTP请求,更多信息,请参见接入指南

  • 计费信息:

    该接口为收费接口。仅对HTTP状态码为200的请求进行计量计费,产生其他错误码时不会计费。关于计费方式,请参见计费说明

QPS限制

本接口的单用户QPS限制为100次/秒。超过限制,API调用会被限流,这可能会影响您的业务,请合理调用。

请求参数

名称

类型

是否必须

示例值

描述

Service

String

comment_multilingual_pro

审核服务类型。取值:comment_multilingual_pro:国际业务多语言检测

ServiceParameters

JSONString

审核服务需要的参数集。JSON字符串格式,关于每个字符串的描述,请参见ServiceParameters

表 1. ServiceParameters

名称

类型

是否必须

示例值

描述

content

String

检测内容

审核的文本内容,限定在600字符以内。

accountId

String

10123****

账户ID,标识一个账户的唯一ID。

deviceId

String

20240307****

设备ID,标识一个设备的唯一ID。

deviceToken

String

MzQvo1d7scyZ3tl_RcJ******

通过风险控制SDK获取到的设备令牌。

返回参数

名称

类型

示例值

描述

Code

Integer

200

状态码。更多信息,请参见Code说明

Data

JSONObject

审核结果数据。更多信息,请参见Data

Message

String

OK

请求消息的响应消息。

RequestId

String

AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****

请求ID。

表 2.Data

名称

类型

示例值

描述

Labels

String

sexual_content

标签,多个标签用英文逗号(,)分隔。包括:

  • violence:暴恐

  • contraband:违禁品

  • sexuality:色情

  • profanity:亵渎辱骂

  • pullinTraffic:广告引流

  • regional:地域对立

  • C_customized:用户库命中

Reason

String

{"customizedWords": "HXXXXX","detectedLanguage": "en","riskTips": "sexuality_Suggestive","riskWords": "pxxxxy","translatedContent": "pxxxxy sxxxx,HXXXXX","customizedLibs": "ZXXXXX"}

原因定位的JSON字符串,包含以下字段:

  • riskLevel:风险等级,根据系统推荐的风险等级返回,返回值包括:

    • high:高风险

    • medium:中风险

    • low:低风险

    说明

    高风险内容建议直接处置;中风险内容建议人工复查;低风险内容建议在高召回需求时再做处理,日常建议和未检测到风险做相同处理。

  • riskTips:细分标签

  • riskWords:命中风险内容

  • customizedWords:命中用户词

  • customizedLibs:命中用户词库名

  • translatedContent:翻译后内容

AccountId

String

10123****

账户ID。

说明

如果在检测请求参数中传入了accountId,则此处返回对应的accountId。

DeviceId

String

20240307****

设备ID。

说明

如果在检测请求参数中传入了deviceId,则此处返回对应的deviceId。

示例

请求示例

{
    "Service": "comment_multilingual_pro",
    "ServiceParameters": {
        "content": "testing content",
        "accountId": "10123****"
    }
}

返回示例:

  • 同时检测到自定义词库内容和风险内容,返回示例:

{
    "Code": 200,
    "Data": {
        "Labels": "C_customized,profanity",
        "Reason": "{\"riskLevel\":\"high\",\"customizedWords\":\"HXXXXX\",\"detectedLanguage\":\"en\",\"riskTips\":\"sexuality_Suggestive\",\"riskWords\":\"pxxxxy\",\"translatedContent\":\"pxxxxy sxxxx,HXXXXX\",\"customizedLibs\":\"ZXXXXX\"}"
    },
    "Message": "OK",
    "RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}
  • 只检测到自定义词库内容,返回示例:

{
    "Code": 200,
    "Data": {
        "Labels": "C_customized",
        "Reason": "{\"riskLevel\":\"high\",\"customizedWords\":\"HXXXXX\",\"detectedLanguage\":\"en\",\"translatedContent\":\"HXXXXX\",\"customizedLibs\":\"ZXXXXX\"}"
    },
    "Message": "OK",
    "RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}
  • 只检测到风险内容,返回示例:

{
    "Code": 200,
    "Data": {
        "Labels": "sexuality",
        "Reason": "{\"riskLevel\":\"high\",\"detectedLanguage\":\"ar\",\"riskTips\":\"sexuality_Suggestive\",\"riskWords\":\"pxxxxy\",\"translatedContent\":\"pxxxxy sxxxx\"}"
    },
    "Message": "OK",
    "RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}
  • 未检测到自定义词库内容或风险内容,返回示例:

{
    "Code": 200,
    "Data": {
        "Labels": "",
        "Reason": "{\"detectedLanguage\":\"en\",\"translatedContent\":\"AXXXXXX\"}"
    },
    "Message": "OK",
    "RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}

Code说明

Code

状态代码

说明

200

OK

请求成功。

400

BAD_REQUEST

请求有误。可能是请求参数不正确导致,请仔细检查请求参数。

407

NOT_SUPPORT

无法识别或不支持该语种类型。

408

PERMISSION_DENY

可能是您的账号未授权、账号欠费、账号未开通、账号被禁等。

500

GENERAL_ERROR

错误。可能是服务端临时出错。建议重试,若持续返回该错误码,请通过在线服务联系我们。

581

TIMEOUT

超时。建议重试,若持续返回该错误码,请通过在线服务联系我们。

588

EXCEED_QUOTA

请求频率超出配额。