特殊字符移除算子用于移除文本中的特殊内容,例如文章中的URL、不可见字符、emoji表情等。本文介绍特殊字符移除算子的配置方法。
前提条件
需联系Dataphin团队开通非结构化数据功能后,才能使用工作流功能。
已完成工作流的创建,详细创建步骤请参见创建工作流。
权限说明
Basic项目的项目管理员、开发者、分析师以及拥有数据集-使用权限的自定义项目角色,可在算子的输入和输出数据集中使用该项目下的所有数据集。
操作步骤
在Dataphin首页的顶部菜单栏中,选择研发 > 数据研发。
在开发页面的顶部菜单栏选择项目。
在左侧导航栏中选择数据处理 > 工作流,在左侧工作流列表中单击目标工作流,打开工作流画布,在左侧算子库中拖动特殊字符移除算子至画布中,并在右侧特殊字符移除面板中配置以下参数。
参数
描述
步骤名称
输入当前算子名称,支持任意字符,不超过256个字符。
输入配置
数据集
选择需处理的数据集,可选择混合数据集和表数据集。数据集选择完成后还需选择其版本,默认为该数据集正序的第一个版本。
当前算子作为其他算子的下游时,此处所选数据集通常与上游算子的输出数据集一致。
输入字段
待处理文档URL或文本,需选择输入数据集中来源字段,可选择输入数据集中元数据表的所有字段。系统根据字段类型自动识别处理对象,若为URL类型,则抓取并解析指向的文档(支持.txt/.md/.csv/.json/.xml/.html格式的文件);若为非URL类型,则直接将该字段内容作为纯文本处理。
过滤条件(非必填)
使用SQL语法,仅需输入where语句后的过滤条件,支持使用系统全局变量,例如业务日期${bizdate}。
算子配置
移除字符选择
待处理文本中需要移除的特殊字符,可选择不可见字符、URL链接、emoji表情和IP地址。
不可见字符:全角空格(\u3000)、不换行空格(\u00A0)、窄空格(\u202F)、发际空格(\u200A)等各类Unicode空白。
URL链接:
完整URL:http://、https://、ftp://开头的链接。
裸域名链接:www.example.com/path?query=1等无协议头但符合URL模式的文本。
文件路径URL:例如file:///C:/Users/...、//server/share/...。
数据URI:data:image/png;base64,iVBOR...(常见于HTML导出)。
输出配置
数据集
支持选择来源数据集或其他数据集。若来源数据集的元数据表不存在主键,则输出数据集默认选择其他数据集。
当选择其他数据集时,若输入字段所选的是URL类型字段(处理后会生成文件),输出数据集仅支持选择混合数据集;若输入字段所选的不是URL类型字段,输出数据集支持选择混合数据集和表数据集。
数据集选择完成后还需选择其版本,默认为该数据集正序的第一个版本。选择来源数据集时,算子产出的元数据将写入来源数据集同版本对应的元数据表中。
文件输出路径
输入文件输出的路径,仅当输入字段为URL类型时支持配置。
加载策略
若所选输出数据集的元数据表中存在主键,则默认选择主键冲突时更新;若不存在主键,则默认选择追加数据。
追加数据:直接向目标表新增追加数据,当主键/约束冲突时,会提示错误。
主键冲突时更新:当主键/约束冲突时,会先删除整行主键重复的旧数据,再插入新数据。
覆盖:先删除目标表的数据,再写入数据。
说明输出数据集选择来源数据集时,加载策略仅支持主键冲突时更新。
字段映射
特殊字符移除算子的输入字段为URL字段时,将固定输出
markdown_url字段,即输出文件的存储URL;输入字段不是URL字段时,将固定输出processed_text字段,即转提取的正文内容。算子输出字段默认映射至输出数据集的同名字段,您也可以手动选择目标字段进行自定义映射。此外,支持将来源数据集的透传字段映射至目标数据集。您可以通过以下方式管理字段映射:
新增输出字段:单击后新增一行空白字段映射关系。仅输出数据集选择其他数据集时支持此功能。
批量映射:单击后可选择批量手动映射、同名映射或同行映射。仅输出数据集选择其他数据集时支持此功能。
删除映射:单击删除图标可删除对应行的字段映射,但算子固定输出字段的映射不支持删除。
配置完成后,单击画布顶部菜单栏中的保存,保存此次配置。
单个算子配置完成后,可继续为其选择上游或下游算子来完成完整工作流的配置。