本文介绍了如何使用Java SDK文本反垃圾接口,对文本内容进行色情、暴恐、涉政等风险进行识别。
功能描述
文本反垃圾接口目前仅支持同步检测。关于参数的详细说明,请参见文本同步检测。
一次请求可以检测多条文本,也可以检测单条文本。按实际检测的文本条数进行计费,请参见计费概述。
前提条件
安装Java依赖。关于安装Java依赖的具体操作,请参见安装Java依赖。
说明请一定按照安装Java依赖页面中的版本安装,否则会导致调用失败。
如果使用本地文件或者二进制文件检测,请下载并在项目工程中引入Extension.Uploader工具类。
文本内容检测
文本垃圾检测支持自定义关键词,例如添加一些竞品关键词等。如果被检测的文本中包含您添加的关键词,算法会返回您suggestion为block。
您可以前往内容安全控制台添加关键词,也可以通过API接口添加关键词。
接口 | 描述 | 支持的Region |
TextScanRequest | 提交文本反垃圾检测任务,检测场景参数请传递antispam(scenes=antispam)。 |
|
示例代码
import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONArray;
import com.alibaba.fastjson.JSONObject;
import com.aliyun.oss.ClientException;
import com.aliyuncs.DefaultAcsClient;
import com.aliyuncs.IAcsClient;
import com.aliyuncs.exceptions.ServerException;
import com.aliyuncs.green.model.v20180509.TextScanRequest;
import com.aliyuncs.http.FormatType;
import com.aliyuncs.http.HttpResponse;
import com.aliyuncs.profile.DefaultProfile;
import com.aliyuncs.profile.IClientProfile;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.LinkedHashMap;
import java.util.List;
import java.util.Map;
import java.util.UUID;
public class Main {
public static void main(String[] args) throws Exception {
/**
* 阿里云账号AccessKey拥有所有API的访问权限,建议您使用RAM用户进行API访问或日常运维。
* 常见获取环境变量方式:
* 方式一:
* 获取RAM用户AccessKey ID:System.getenv("ALIBABA_CLOUD_ACCESS_KEY_ID");
* 获取RAM用户AccessKey Secret:System.getenv("ALIBABA_CLOUD_ACCESS_KEY_SECRET");
* 方式二:
* 获取RAM用户AccessKey ID:System.getProperty("ALIBABA_CLOUD_ACCESS_KEY_ID");
* 获取RAM用户AccessKey Secret:System.getProperty("ALIBABA_CLOUD_ACCESS_KEY_SECRET");
*/
DefaultProfile profile = DefaultProfile.getProfile(
"cn-shanghai",
"建议从环境变量中获取RAM用户AccessKey ID",
"建议从环境变量中获取RAM用户AccessKey Secret");
DefaultProfile.addEndpoint("cn-shanghai", "Green", "green.cn-shanghai.aliyuncs.com");
// 注意:此处实例化的client尽可能重复使用,提升检测性能。避免重复建立连接。
IAcsClient client = new DefaultAcsClient(profile);
TextScanRequest textScanRequest = new TextScanRequest();
textScanRequest.setAcceptFormat(FormatType.JSON); // 指定API返回格式。
textScanRequest.setHttpContentType(FormatType.JSON);
textScanRequest.setMethod(com.aliyuncs.http.MethodType.POST); // 指定请求方法。
textScanRequest.setEncoding("UTF-8");
textScanRequest.setRegionId("cn-shanghai");
List<Map<String, Object>> tasks = new ArrayList<Map<String, Object>>();
Map<String, Object> task1 = new LinkedHashMap<String, Object>();
task1.put("dataId", UUID.randomUUID().toString());
/**
* 待检测的文本,长度不超过10000个字符。
*/
task1.put("content", "test content");
tasks.add(task1);
JSONObject data = new JSONObject();
/**
* 检测场景。文本垃圾检测请传递antispam。
**/
data.put("scenes", Arrays.asList("antispam"));
data.put("tasks", tasks);
System.out.println(JSON.toJSONString(data, true));
textScanRequest.setHttpContent(data.toJSONString().getBytes("UTF-8"), "UTF-8", FormatType.JSON);
// 请务必设置超时时间。
textScanRequest.setConnectTimeout(3000);
textScanRequest.setReadTimeout(6000);
try {
HttpResponse httpResponse = client.doAction(textScanRequest);
if (!httpResponse.isSuccess()) {
System.out.println("response not success. status:" + httpResponse.getStatus());
// 业务处理。
return;
}
JSONObject scrResponse = JSON.parseObject(new String(httpResponse.getHttpContent(), "UTF-8"));
System.out.println(JSON.toJSONString(scrResponse, true));
if (200 != scrResponse.getInteger("code")) {
System.out.println("detect not success. code:" + scrResponse.getInteger("code"));
// 业务处理。
return;
}
JSONArray taskResults = scrResponse.getJSONArray("data");
for (Object taskResult : taskResults) {
if (200 != ((JSONObject) taskResult).getInteger("code")) {
System.out.println("task process fail:" + ((JSONObject) taskResult).getInteger("code"));
// 业务处理。
continue;
}
JSONArray sceneResults = ((JSONObject) taskResult).getJSONArray("results");
for (Object sceneResult : sceneResults) {
String scene = ((JSONObject) sceneResult).getString("scene");
String suggestion = ((JSONObject) sceneResult).getString("suggestion");
// 根据scene和suggestion做相关处理。
// suggestion为pass表示未命中垃圾。suggestion为block表示命中了垃圾,可以通过label字段查看命中的垃圾分类。
System.out.println("args = [" + scene + "]");
System.out.println("args = [" + suggestion + "]");
}
}
} catch (ServerException e) {
e.printStackTrace();
} catch (ClientException e) {
e.printStackTrace();
} catch (Exception e) {
e.printStackTrace();
}
}
}
文本反垃圾结果反馈
如果您认为我们的文本检测结果与您的期望不符,您可以通过文本反垃圾结果反馈接口纠正算法检测结果。
系统会将您反馈的结果添加进相似文本黑库或相似文本白库,在您下次提交相似的内容进行检测时,以您通过反馈接口传递的label作为结果返回。关于接口的说明,请参见文本反垃圾结果反馈API文档。
接口 | 描述 | 支持的地域 |
TextFeedbackRequest | 提交文本反垃圾检测结果的反馈,以人工反馈的检测结果纠正算法检测结果。 |
|
示例代码
import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import com.aliyuncs.DefaultAcsClient;
import com.aliyuncs.IAcsClient;
import com.aliyuncs.exceptions.ClientException;
import com.aliyuncs.exceptions.ServerException;
import com.aliyuncs.green.model.v20180509.TextFeedbackRequest;
import com.aliyuncs.http.FormatType;
import com.aliyuncs.http.HttpResponse;
import com.aliyuncs.http.MethodType;
import com.aliyuncs.http.ProtocolType;
import com.aliyuncs.profile.DefaultProfile;
import com.aliyuncs.profile.IClientProfile;
public class TextFeedbackSample {
public static void main(String[] args) throws Exception {
/**
* 阿里云账号AccessKey拥有所有API的访问权限,建议您使用RAM用户进行API访问或日常运维。
* 常见获取环境变量方式:
* 方式一:
* 获取RAM用户AccessKey ID:System.getenv("ALIBABA_CLOUD_ACCESS_KEY_ID");
* 获取RAM用户AccessKey Secret:System.getenv("ALIBABA_CLOUD_ACCESS_KEY_SECRET");
* 方式二:
* 获取RAM用户AccessKey ID:System.getProperty("ALIBABA_CLOUD_ACCESS_KEY_ID");
* 获取RAM用户AccessKey Secret:System.getProperty("ALIBABA_CLOUD_ACCESS_KEY_SECRET");
*/
DefaultProfile profile = DefaultProfile.getProfile(
"cn-shanghai",
"建议从环境变量中获取RAM用户AccessKey ID",
"建议从环境变量中获取RAM用户AccessKey Secret");
DefaultProfile.addEndpoint("cn-shanghai", "Green", "green.cn-shanghai.aliyuncs.com");
// 注意:此处实例化的client尽可能重复使用,提升检测性能。避免重复建立连接。
IAcsClient client = new DefaultAcsClient(profile);
TextFeedbackRequest textFeedbackRequest = new TextFeedbackRequest();
// 指定API返回格式。
textFeedbackRequest.setAcceptFormat(FormatType.JSON);
// 指定请求方法。
textFeedbackRequest.setMethod(MethodType.POST);
textFeedbackRequest.setEncoding("utf-8");
// 支持HTTP和HTTPS。
textFeedbackRequest.setProtocol(ProtocolType.HTTP);
// label:反馈的分类,与具体的检测场景对应。
JSONObject httpBody = new JSONObject();
httpBody.put("dataId", "检测数据ID");
httpBody.put("taskId", "文本审核任务ID");
httpBody.put("content", "文本内容");
httpBody.put("label", "spam");
httpBody.put("note", "备注信息");
textFeedbackRequest.setHttpContent(org.apache.commons.codec.binary.StringUtils.getBytesUtf8(httpBody.toJSONString()),
"UTF-8", FormatType.JSON);
textFeedbackRequest.setConnectTimeout(3000);
textFeedbackRequest.setReadTimeout(10000);
try {
HttpResponse httpResponse = client.doAction(textFeedbackRequest);
if (!httpResponse.isSuccess()) {
System.out.println("response not success. status:" + httpResponse.getStatus());
// 业务处理。
return;
}
JSONObject scrResponse = JSON.parseObject(new String(httpResponse.getHttpContent(), "UTF-8"));
int requestCode = scrResponse.getIntValue("code");
if (200 != requestCode) {
// 表明请求整体处理失败,原因视具体的情况详细分析。
System.out.println("the whole scan request failed. response:" + JSON.toJSONString(scrResponse));
// 业务处理。
return;
}
// 调用成功。
System.out.println(JSON.toJSONString(scrResponse, true));
// 业务处理。
} catch (ServerException e) {
e.printStackTrace();
} catch (ClientException e) {
e.printStackTrace();
}
}
}