LLM-Copyright信息移除组件说明-人工智能平台 PAI(PAI)-阿里云帮助中心

LLM-Copyright信息移除组件主要用于大语言模型（LLM）的文本数据预处理工作，用于删除文本中的Copyright信息，多用于去除代码文本中的头部Copyright注释。

支持的计算资源

算法说明

去除文本中的Copyright信息或者注释信息，分为以下两个步骤：

首先检测文本中是否有符合正则表达式'/\\*[^*]*\\*+(?:[^/*][^*]*\\*+)*/'（注释字符）的字符串。
- 如果匹配到对应字符串，则检测字符串中是否包含copyright字段，如果包含，则删除整段字符串并返回；否则不做删除，直接返回。
- 如果匹配不到该正则表达式，则进入步骤2继续处理。
将文本用换行符分隔，按行遍历文本是否以//、#、--注释符号开头，一旦匹配到符合条件的某行，继续统计连续的注释行，直到注释符号终止，则遍历终止。最后删除文本中的连续注释片段并返回。

以上步骤均检测第一次匹配到的注释片段，即默认检测文本的头部，剩余部分不做处理。示例如下：

处理前

弹窗当前字段值中展示了 angular-spinner 0.3.1 的 JavaScript 源代码，顶部包含 MIT 许可证注释块（版本号、License: MIT、Copyright (C) 2013, 2014, Uri Shaked and contributors），随后是 IIFE 函数及 angular.module('angularSpinner', []) 等代码行。

处理后

(function(window, angular, undefined) {
'use strict';
angular.module('angularSpinner', [])
.factory('usSpinnerService', ['$rootScope', function ($rootScope) {
    var config = {};
    config.spin = function (key) {
        $rootScope.$broadcast('us-spinner:spin', key);
    };
}]);
})(window, window.angular);

配置组件

在Designer工作流页面添加LLM-Copyright信息移除（MaxCompute）组件，并在界面右侧配置相关参数：

参数类型	参数	默认值	描述
字段设置	选择目标处理列	无	选择要处理的列，支持选择多个列。
字段设置	设置输出表生命周期	28	正整数，单位为天。默认28天，28天后该组件产生的临时表被回收。
执行调优	每个实例的cpu数目	100	设定map task每个instance的CPU数目，取值范围为[50,800]。
	每个实例的memory大小，单位M	1024	设定map task每个instance的memory大小，单位为MB，取值范围为[256,12288]。
	每个实例处理的数据大小，单位M	256	设定map task每个instance的最大处理数据量，用户可以通过控制该变量，实现对map端输入的控制。单位为MB，取值范围为[1,Integer.MAX_VALUE]。