数据处理

更新时间:
复制为 MD 格式

在数据同步过程中,原始数据可能存在格式不一、信息冗余或非结构化等问题。DataWorks离线同步任务内置的数据处理功能,可在数据同步链路中直接对数据进行清洗、AI辅助处理和向量化转换,以简化ETL架构。

使用限制

  • 仅启用了新版数据开发的工作空间可用。

  • 仅支持使用Serverless资源组。

  • 当前仅部分单表离线的通道开通了此功能。

  • 开启数据处理能力会额外消耗部分计算资源(CU),请关注您的资源配额。

配置入口

  1. 创建或编辑的离线同步任务配置页面,向下滚动至数据处理区域。

  2. 默认情况下,该功能为关闭状态。请单击开启开关,以启用数据处理模块的配置。

PixPin_2025-12-18_11-09-31

功能介绍

开启数据处理模块后,您可以按需添加以下一种或多种处理规则。

1. 字符串替换

字符串替换是最基础也是最常用的数据清洗功能,支持为当前任务的不同字段设置多条替换规则。

向导模式配置说明

单击数据处理列表下的+添加节点按钮,选择字符串替换,可以新增一条替换规则。各配置项说明如下:

配置项

说明

名称

为该条替换规则自定义一个易于识别的名称。

描述

(可选)对该规则的用途进行详细描述。

字段名

单击+新增规则按钮,新增一条字段规则。从源表字段的下拉列表中选择一个字段,应用此规则。

要替换的内容

输入需要被查找和替换的原始字符串。

替换为

输入您希望替换成的新字符串。

.*(正则表达式匹配)

开关按钮,用于开启正则表达式,支持正则表达式方式查找需要被替换的原始字符串。

Aa(区分大小写)

开关按钮,用于控制要替换的内容在查找时是否区分字母大小写。默认不区分大小写。

支持添加多条规则,以实现对不同字段、不同内容的精细化替换。例如,您可以创建一条规则将gender字段中的'男'替换为'1',同时创建另一条规则将status字段中的'active'替换为'valid'

数据输出预览

  1. 完成规则配置后,单击数据处理区域右上角的数据输出预览

  2. 在弹出的对话框中配置输入数据。支持以下两种方式:

    • 自动获取:系统默认从上游节点的输出获取数据。可单击重新获取上游输出刷新数据。

    • 手动构造:单击 +手工构造数据,在数据行中为各字段输入自定义值,或测试特定边界条件(如NULL或空字符串)。

  3. 单击预览结果区域的预览按钮。

  4. 系统将执行已配置的所有处理规则,并在下方显示处理结果。对比结果与预期,可判断规则配置是否正确。

说明

此处的预览结果仅供调试和参考,最终的执行结果以任务实际运行时为准。

脚本模式配置说明

脚本模式下如需支持数据处理,需在JSON脚本的steps模块中新增"category": "map", "stepType": "stringreplace"JSONObject,脚本模式的通用配置流程参见:脚本模式配置

{
  "category": "map",
  "stepType": "stringreplace",
  "parameter": {
    "condition": [
      {
        "name": "<需处理的字段名>",
        "replaceString": "<要替换的内容>",
        "replaceByString": "<替换后的新内容>",
        "useRegex": false,
        "caseSensitive": false
      }
    ]
  },
  "displayName": "<规则名称>",
  "description": "<规则描述>"
}

2. AI辅助处理

此功能通过调用内置的大语言模型,对指定字段的内容进行智能化的加工和处理,赋予数据更丰富的业务价值。

核心应用场景:

  • 内容摘要:从大段文本(如产品评论、新闻内容)中提取核心摘要。

  • 信息提取:从非结构化文本中抽取出关键信息,如姓名、地址、联系方式等。

  • 文本翻译:将字段内容翻译成指定语言。

  • 情感分析:判断文本的情感倾向(如正面、负面、中性)。

配置与使用:
添加节点时,选择AI辅助处理。关于此功能的详细配置方法和典型应用案例,请参见:AI辅助处理

3. 数据向量化

数据向量化是将文本或其他类型的数据通过Embedding模型转换为高维数学向量的过程。这些向量能够捕捉数据的语义信息,是构建检索增强生成(RAG)、语义搜索、推荐系统等AI应用的关键步骤。

核心应用场景:

  • 构建知识库:将文档、工单、产品说明等文本数据向量化后存入向量数据库,作为大模型的外部知识库。

  • 个性化推荐:基于用户和物品的向量表示,计算相似度,实现精准推荐。

配置与使用:
添加节点时,选择数据向量化,选择需要处理的字段和使用的Embedding模型。关于此功能的详细配置方法和实战案例,请参见:向量化处理

相关文档