在数据同步过程中,原始数据可能存在格式不一、信息冗余或非结构化等问题。DataWorks离线同步任务内置的数据处理功能,可在数据同步链路中直接对数据进行清洗、AI辅助处理和向量化转换,以简化ETL架构。
使用限制
仅启用了新版数据开发的工作空间可用。
仅支持使用Serverless资源组。
当前仅部分单表离线的通道开通了此功能。
开启数据处理能力会额外消耗部分计算资源(CU),请关注您的资源配额。
配置入口
创建或编辑的离线同步任务配置页面,向下滚动至数据处理区域。
默认情况下,该功能为关闭状态。请单击开启开关,以启用数据处理模块的配置。

功能介绍
开启数据处理模块后,您可以按需添加以下一种或多种处理规则。
1. 字符串替换
字符串替换是最基础也是最常用的数据清洗功能,支持为当前任务的不同字段设置多条替换规则。
向导模式配置说明
单击数据处理列表下的+添加节点按钮,选择字符串替换,可以新增一条替换规则。各配置项说明如下:
配置项 | 说明 |
名称 | 为该条替换规则自定义一个易于识别的名称。 |
描述 | (可选)对该规则的用途进行详细描述。 |
字段名 | 单击+新增规则按钮,新增一条字段规则。从源表字段的下拉列表中选择一个字段,应用此规则。 |
要替换的内容 | 输入需要被查找和替换的原始字符串。 |
替换为 | 输入您希望替换成的新字符串。 |
| 开关按钮,用于开启正则表达式,支持正则表达式方式查找需要被替换的原始字符串。 |
| 开关按钮,用于控制要替换的内容在查找时是否区分字母大小写。默认不区分大小写。 |
支持添加多条规则,以实现对不同字段、不同内容的精细化替换。例如,您可以创建一条规则将gender字段中的'男'替换为'1',同时创建另一条规则将status字段中的'active'替换为'valid'。
数据输出预览
完成规则配置后,单击数据处理区域右上角的数据输出预览。
在弹出的对话框中配置输入数据。支持以下两种方式:
自动获取:系统默认从上游节点的输出获取数据。可单击重新获取上游输出刷新数据。
手动构造:单击 +手工构造数据,在数据行中为各字段输入自定义值,或测试特定边界条件(如
NULL或空字符串)。
单击预览结果区域的预览按钮。
系统将执行已配置的所有处理规则,并在下方显示处理结果。对比结果与预期,可判断规则配置是否正确。
此处的预览结果仅供调试和参考,最终的执行结果以任务实际运行时为准。
脚本模式配置说明
脚本模式下如需支持数据处理,需在JSON脚本的steps模块中新增"category": "map", "stepType": "stringreplace"的JSONObject,脚本模式的通用配置流程参见:脚本模式配置。
{
"category": "map",
"stepType": "stringreplace",
"parameter": {
"condition": [
{
"name": "<需处理的字段名>",
"replaceString": "<要替换的内容>",
"replaceByString": "<替换后的新内容>",
"useRegex": false,
"caseSensitive": false
}
]
},
"displayName": "<规则名称>",
"description": "<规则描述>"
}2. AI辅助处理
此功能通过调用内置的大语言模型,对指定字段的内容进行智能化的加工和处理,赋予数据更丰富的业务价值。
核心应用场景:
内容摘要:从大段文本(如产品评论、新闻内容)中提取核心摘要。
信息提取:从非结构化文本中抽取出关键信息,如姓名、地址、联系方式等。
文本翻译:将字段内容翻译成指定语言。
情感分析:判断文本的情感倾向(如正面、负面、中性)。
配置与使用:
在添加节点时,选择AI辅助处理。关于此功能的详细配置方法和典型应用案例,请参见:AI辅助处理。
3. 数据向量化
数据向量化是将文本或其他类型的数据通过Embedding模型转换为高维数学向量的过程。这些向量能够捕捉数据的语义信息,是构建检索增强生成(RAG)、语义搜索、推荐系统等AI应用的关键步骤。
核心应用场景:
构建知识库:将文档、工单、产品说明等文本数据向量化后存入向量数据库,作为大模型的外部知识库。
个性化推荐:基于用户和物品的向量表示,计算相似度,实现精准推荐。
配置与使用:
在添加节点时,选择数据向量化,选择需要处理的字段和使用的Embedding模型。关于此功能的详细配置方法和实战案例,请参见:向量化处理。