文本审核增强版升级多语言模型能力,能够自动判断语种,并支持更多的语种类型。结合国际化业务特性,提供审核策略和标签体系。本文介绍文本审核增强版多语言服务的内容以及使用方法。
功能特性
相比较文本审核1.0版本多语言审核服务,文本审核增强版采用单独的策略和标签体系,满足国际化业务特性。同时提供更多功能特性,简化业务使用并辅助人工审核。
对比项 | 文本审核增强版 | 文本审核1.0版本 |
对比项 | 文本审核增强版 | 文本审核1.0版本 |
多语言能力 | 支持38种语言类型。 | 支持18种语言类型。 |
审核能力 | 采用多种模型并行,结合语言和地区特性,策略更精确。 | 采用单个模型,结合语言特性,策略兼顾准确和召回。 |
标签体系 | 采用国际化标签体系,增加亵渎、地域等国际化标签,支持多个风险标签和细分标签。 | 沿用中文场景下的标签体系,仅支持单个风险标签。 |
检测范围 | 支持在控制台配置所有的检测范围,按需进行开关设置,和检测结果一一对应。 | 支持泛类的检测范围,和检测结果不能一一对应。 |
接口功能 | 不需要指定输入语种,能够自动识别。审核后会返回语言类型和翻译后的英文内容,用于辅助人工审核。 | 需要指定输入语种,不返回翻译内容。 |
支持语种
文本审核增强版多语言服务目前支持38种语言类型。
语种类型 | 英文名 | 语言代码 |
语种类型 | 英文名 | 语言代码 |
英语 | English | en |
中文简体 | Chinese | zh |
中文繁体 | Traditional Chinese | zh-tw |
印度尼西亚语 | Indonesian | id |
马来语 | Malay | ms |
泰语 | Thai | th |
越南语 | Vietnamese | vi |
他加禄语 | Tagalog | tl |
印地语 | Hindi | hi |
阿拉伯语 | Arabic | ar |
土耳其语 | Turkish | tr |
法语 | French | fr |
德语 | German | de |
俄语 | Russian | ru |
葡萄牙语 | Portuguese | pt |
西班牙语 | Spanish | es |
意大利语 | Italian | it |
荷兰语 | Dutch | nl |
波兰语 | Polish | pl |
日语 | Japanese | ja |
韩语 | Korean | ko |
乌尔都语 | Urdu | ur |
维吾尔语 | Uighur | ug |
孟加拉语 | Bengali | bn |
波斯语 | Persian | fa |
瑞典语 | Swedish | sv |
丹麦语 | Danish | da |
挪威语 | Norwegian | no |
冰岛语 | Icelandic | is |
芬兰语 | Finnish | fi |
白俄罗斯语 | Belarusian | be |
立陶宛语 | Lithuanian | lt |
捷克语 | Czech | cs |
斯洛伐克语 | Slovak | sk |
匈牙利语 | Hungarian | hu |
希腊语 | Modern Greek | el |
罗马尼亚语 | Romanian | ro |
爱尔兰语 | Irish | ga |
国际化标签
文本审核增强版多语言PLUS服务采用国际化标签体系。如果内容存在多类风险,能够同时返回多个标签。标签分类包括但不限于如下所示:
签值(label) | 置信分区间(confidence) | 中文含义 |
签值(label) | 置信分区间(confidence) | 中文含义 |
pornographic_adult | 0~100分,分数越高置信度越高 | 疑似色情内容 |
sexual_terms | 0~100分,分数越高置信度越高 | 疑似性健康内容 |
sexual_suggestive | 0~100分,分数越高置信度越高 | 疑似低俗内容 |
sexual_orientation | 0~100分,分数越高置信度越高 | 疑似性取向内容 |
regional_cn | 0~100分,分数越高置信度越高 | 疑似国内涉政内容 |
regional_illegal | 0~100分,分数越高置信度越高 | 疑似非法政治内容 |
regional_controversial | 0~100分,分数越高置信度越高 | 疑似政治争议 |
regional_racism | 0~100分,分数越高置信度越高 | 疑似种族主义 |
violent_extremist | 0~100分,分数越高置信度越高 | 疑似极端组织 |
violent_incidents | 0~100分,分数越高置信度越高 | 疑似极端主义内容 |
violent_weapons | 0~100分,分数越高置信度越高 | 疑似武器弹药 |
violence_unscList | 0~100分,分数越高置信度越高 | 联合国制裁名单 |
contraband_drug | 0~100分,分数越高置信度越高 | 疑似毒品相关 |
contraband_gambling | 0~100分,分数越高置信度越高 | 疑似赌博相关 |
inappropriate_ethics | 0~100分,分数越高置信度越高 | 疑似不良价值观内容 |
inappropriate_profanity | 0~100分,分数越高置信度越高 | 疑似攻击辱骂内容 |
inappropriate_oral | 0~100分,分数越高置信度越高 | 疑似低俗口头语内容 |
inappropriate_religion | 0~100分,分数越高置信度越高 | 疑似宗教亵渎内容 |
pt_to_contact | 0~100分,分数越高置信度越高 | 疑似引流广告号 |
pt_to_sites | 0~100分,分数越高置信度越高 | 疑似站外引流 |
customized | 0~100分,分数越高置信度越高 | 命中自定义词库 |
计费说明
文本审核增强版服务支持按量后付费和资源包抵扣两种付费方式。
按量后付费
当您开通文本审核增强版服务后,默认付费方式是按量后付费,且按照实际用量结算当日费用,不调用服务不收费。
审核类型 | 支持的业务场景(服务) | 计费单价 |
审核类型 | 支持的业务场景(服务) | 计费单价 |
文本审核高级(text_advanced) | 国际业务多语言检测_出海版:comment_multilingual_pro_cb | 15元/万次 |
资源包抵扣
如果您的审核量较大,或有相对固定的审核需求,建议预先购买资源包的方式。购买资源包规格越大,享受的折扣越大,支持叠加购买和使用。更多内容,请参见购买内容审核增强版抵扣资源包。
该资源包用于内容审核增强版用量的抵扣,无法与内容安全流量包共享,具体的抵扣系数如下:
审核类型 | 支持的业务场景(服务) | 抵扣系数 |
审核类型 | 支持的业务场景(服务) | 抵扣系数 |
文本审核高级(text_advanced) | 国际业务多语言检测:comment_multilingual_pro_cb | 抵扣系数为2,表示每成功调用一次接口,抵扣资源包的流量包容量规格2次。 例如购买的资源包的流量包容量规格为10次,当您成功调用1次接口,抵扣流量包容量规格2次,剩余8次。 |
接入指南
步骤一:开通服务
访问开通服务,开通文本审核增强版服务。
开通文本增强版服务后,默认付费方式是按量后付费,且按照实际用量结算当日费用,不调用服务不收费。接口接入使用后系统会按使用量自动出账,具体信息,请参见计费说明。您也可以购买按量抵扣资源包,资源包相较于后付费存在一定阶梯折扣,适合使用量级可预期和较大的用户。
步骤二:为RAM用户授权
在接入SDK或者API之前,您需要为RAM用户授权。您可以为阿里云账号和RAM用户创建一个访问密钥(AccessKey)。在调用阿里云API时您需要使用AccessKey完成身份验证。获取方式,请参见获取AccessKey。
步骤三:安装并接入SDK
目前支持的接入地域如下,文本审核增强版服务SDK请参考接入指南。
地域 | 外网接入地址 | 内网接入地址 |
地域 | 外网接入地址 | 内网接入地址 |
新加坡 | green-cip.ap-southeast-1.aliyuncs.com | green-cip-vpc.ap-southeast-1.aliyuncs.com |
英国(伦敦) | https://green-cip.eu-west-1.aliyuncs.com | 暂无 |
美国(弗吉尼亚) | https://green-cip.us-east-1.aliyuncs.com | https://green-cip-vpc.us-east-1.aliyuncs.com |
美国(硅谷) | https://green-cip.us-west-1.aliyuncs.com | 暂无 |
德国(法兰克福) | green-cip.eu-central-1.aliyuncs.com | 暂无 |
英国(伦敦)的配置复用新加坡区域控制台配置;美国(硅谷)和德国(法兰克福)的配置复用美国(弗吉尼亚)区域控制台配置。
API
使用说明
业务接口:TextModerationPlus
您可以调用该接口创建文本内容检测任务。关于如何构造HTTP请求,请参见请求结构;您也可以直接选用已构造好的HTTP请求,更多信息,请参见接入指南。
计费信息:
该接口为收费接口。仅对HTTP状态码为200的请求进行计量计费,产生其他错误码时不会计费。关于计费方式,请参见计费说明。
QPS限制
本接口的单用户QPS限制为100次/秒。超过限制,API调用会被限流,这可能会影响您的业务,请合理调用。
请求参数
名称 | 类型 | 是否必须 | 示例值 | 描述 |
名称 | 类型 | 是否必须 | 示例值 | 描述 |
Service | String | 是 | comment_multilingual_pro_cb | 审核服务类型。取值:comment_multilingual_pro_cb:国际业务多语言检测 |
ServiceParameters | JSONString | 是 | 审核服务需要的参数集。JSON字符串格式,关于每个字符串的描述,请参见ServiceParameters。 |
表 1. ServiceParameters
名称 | 类型 | 是否必须 | 示例值 | 描述 |
content | String | 是 | 检测内容 | 审核的文本内容,限定在600字符以内。 |
dataId | String | 否 | text0424**** | 检测对象对应的数据ID。 由大小写英文字母、数字、下划线(_)、短划线(-)、英文句号(.)组成,不超过64个字符,可以用于唯一标识您的业务数据。 |
返回参数
名称 | 类型 | 示例值 | 描述 |
名称 | 类型 | 示例值 | 描述 |
Code | Integer | 200 | 状态码。更多信息,请参见Code说明。 |
Data | JSONObject | 审核结果数据。更多信息,请参见Data。 | |
Message | String | OK | 请求消息的响应消息。 |
RequestId | String | AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE**** | 请求ID。 |
表 2. Data
名称 | 类型 | 示例值 | 描述 |
名称 | 类型 | 示例值 | 描述 |
Result | JSONArray | 检测的风险标签、置信分等结果,具体请参见Result。 | |
DataId | String | text0424**** | 检测对象对应的数据ID。 如果在检测请求参数中传入了dataId,则此处返回对应的dataId。 |
RiskLevel | String | high | 风险等级,根据设置的高低风险分返回,返回值包括:
高风险内容建议直接处置;中风险内容建议人工复查;低风险内容建议在高召回需求时再做处理,日常建议和未检测到风险做相同处理。风险分值可以在内容安全控制台配置。 |
TranslatedContent | String | 翻译后文本 | 翻译后的文本内容。 |
DetectedLanguage | String | en | 检测到的语种。 |
表 3. Result
名称 | 类型 | 示例值 | 描述 |
Label | String | political_xxx | 文字内容检测运算后返回的标签,可能会检出多个标签和分值。支持的标签请参见国际化标签部分。 |
Confidence | Float | 81.22 | 置信分值,0到100分,保留到小数点后2位。部分标签无置信分。 |
Riskwords | String | AA,BB,CC | 检测到的敏感词,多个词用逗号分隔,部分标签不会返回敏感词。 |
CustomizedHit | JSONArray | [{"LibName":"...","Keywords":"..."}] | 当命中自定义库时,Label为customized,返回自定义库名称和自定义词,具体参见CustomizedHit。 |
Description | String | 疑似色情内容 | 对Labal字段的说明。 该字段为Label字段的解释说明,可能会变更调整,实际处理结果时建议处理Label字段,不要基于该字段进行结果处置。 |
表 4. CustomizedHit
名称 | 类型 | 示例值 | 描述 |
LibName | String | 自定义库1 | 自定义库名称 |
Keywords | String | 自定义词1,自定义词2 | 自定义词,多个词用逗号分隔。 |
示例
请求示例
{
"Service": "comment_detection_pro_cb",
"ServiceParameters": {
"content": "testing content",
"dataId": "text0424****"
}
}
返回示例:
命中系统策略:
{
"Code": 200,
"Data": {
"Result": [
{
"Label": "political_entity",
"Description": "疑似政治实体",
"Confidence": 100.0,
"RiskWords": "词A,词B,词C"
},
{
"Label": "political_figure",
"Description": "疑似政治人物",
"Confidence": 100.0,
"RiskWords": "词A,词B,词C"
}
],
"RiskLevel": "high",
"DetectedLanguage": "en",
"TranslatedContent": "翻译后的文本内容",
"DataId": "text0424****"
},
"Message": "OK",
"RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}
命中自定义词库:
{
"Code": 200,
"Data": {
"Result": [
{
"Description": "命中自定义库",
"CustomizedHit": [
{
"LibName": "自定义词库名称1",
"KeyWords": "自定义关键词"
}
],
"Confidence": 100,
"Label": "customized"
}
],
"RiskLevel": "high",
"DataId": "text0424****"
},
"Message": "OK",
"RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}
Code说明
- 本页导读 (0)
- 功能特性
- 支持语种
- 国际化标签
- 计费说明
- 按量后付费
- 资源包抵扣
- 接入指南
- 步骤一:开通服务
- 步骤二:为RAM用户授权
- 步骤三:安装并接入SDK
- API
- 使用说明
- QPS限制
- 请求参数
- 返回参数
- 示例
- Code说明