LLM-文章相似度去重(DLC)组件主要用于通过SimHash算法计算文本间的相似度,实现文本去重。输入的OSS数据文件(JSONL格式,示例)需符合:每一行是一个合法的JSON对象,文件由多行JSON对象组成,整个文件本身不是合法的JSON对象。
支持的计算资源
配置组件
在Designer工作流页面添加LLM-文章相似度去重(DLC)组件,并在界面右侧配置相关参数:
参数类型 | 参数 | 是否必选 | 描述 | 默认值 | |
字段设置 | 目标处理字段 | 是 | 要处理的字段名称。 | 无 | |
文本分隔符,默认空格 | 否 | 根据分隔符将文本拆分成单词列表,默认空格。如果置空,则不做拆分,根据单个字符进行统计。分隔符需用英文双引号""引起来。 | " " | ||
window_size | 是 | window_size用于定义构成文档特征的子字符串的长度。例如:如果你的文档是"the cute alibaba mascot",并且window_size设置为2,那么子字符串将会是["the cute", "cute alibaba", "alibaba mascot"]。然后,对这些子字符串计算hash值,并用这些hash值生成文档的SimHash值。window_size的选择直接影响SimHash值的粒度。一个较小的window_size可能使文档的局部特征更加明显,但可能也会使hash更容易受到小的编辑操作影响。较大的window_size可以捕捉更长范围的上下文,但可能会损失一些细节。 | 6 | ||
num_blocks | 是 | num_blocks决定SimHash值的分块数。在执行近似重复文档的检测时,SimHash值会被分成几个块。例如:如果SimHash值是一个64位的整数,并且num_blocks是4,那么这个64位将分为4个独立的16位块。更多的块意味着更细粒度的相似度比较。它可能减少误报(认为不相关的文档相似)但同时可能增加漏报(未能识别实际上相似的文档)。通常num_blocks必须小于SimHash值的位数。 | 6 | ||
hamming_distance | 是 | hamming_distance是两个SimHash值之间的汉明距离的阈值,用于决定是否应该将两个文档视为 “几乎重复”(即相似)。例如:假设有两个SimHash值A和B,如果它们之间的汉明距离(即A与B中不同bit的数量)小于或等于hamming_distance,那么A和B将被认为是相似的。较小的hamming_distance值会导致只有高度相似的文档被认为是重复的,可能导致较多的重复文档未被识别。较大的hamming_distance值增加了误报的可能性,但同时较好地识别了相似的文档。典型的汉明距离值可以是3、4或5,视具体用途而定。 | 4 | ||
数据输出OSS目录 | 否 | 处理后数据的OSS存储目录。如果为空,使用工作空间默认路径。 | 无 | ||
执行调优 | 多进程个数 | 否 | 设置进程数。 | 8 | |
选择资源组 | 公共资源组 | 否 | 选择节点规格(CPU或GPU实例规格)、节点数量、专有网络。 | 无 | |
专有资源组 | 否 | 选择CPU核数、内存、共享内存、GPU卡数、节点数量。 | 无 | ||
最大运行时长 | 否 | 组件最大运行时长,超过这个时间,作业会被kill。 | 无 |