码表定义基于圈选的数据表通过大模型结合语义分析,识别核心字段,针对核心字段进行数据探查,从而智能抽取码表定义,您可对码表执行编辑、应用、弃用等操作。本文为您介绍如何配置智能抽取码表定义。
前提条件
已配置并开启X-数据标准,详情请参见智能助手。
权限说明
超级管理员、数据标准管理员和具有数据标准-管理权限的自定义全局角色支持使用X-数据标准。
超级管理员、运营管理员支持添加Dataphin表和数据源表资产;另外,项目/板块的管理员、表负责人支持添加Dataphin表资产;运营人员、表维护人员支持添加数据源表资产。
超级管理员、数据标准管理员、标准负责人、资产负责人支持新增或删除码表。
操作步骤
在Dataphin首页的顶部菜单栏,选择超级X > X-数据标准,进入X-数据标准页面。
您可以在X-数据标准页面根据资产结合大模型智能抽取码表定义。
区域
描述
①智能助手
支持切换有使用权限且已启用的智能应用。
②任务记录/新建任务
任务记录:单击左上角的任务记录,在任务记录对话框中,可查看最近7天或最近30天共20条任务记录,并可以执行如下操作:
搜索与筛选:您可以根据任务关键字搜索任务记录,也可单击筛选图标,根据治理操作、数据来源进行筛选。
重命名:单击任务记录名称后的重命名图标,支持重命名任务记录的名称,不超过256个字符。
删除:可单击任务记录名称后的删除图标,删除单条任务记录。
新建任务:单击左上角的新建任务,重新开启新的任务页面。
③抽取码表定义数据范围
根据资产来源圈选需要抽取码表定义的数据范围。
添加数据:添加码表定义的数据范围,支持Dataphin表和数据源表。单击请选择治理数据或添加数据来源按钮,在添加数据来源面板中,选择资产对象后单击确定。支持最多选中5个数据来源。
资产搜索与筛选:支持根据资产关键字进行搜索,也可根据环境、资产的类型进行筛选。
资产规则配置:选中资产后,单击数据范围下的编辑图标,在数据范围配置对话框中,配置资产的数据范围,单击确定。
数据范围:支持全部表和指定表,选中指定表后,支持根据表全名、资产清单标签、表描述、db/schema(仅数据源来源支持该属性)配置过滤条件,以便对资产进行更细粒度地筛选。支持最多配置10个过滤条件;过滤条件之间的关系为且、或。
表全名/表描述/db/schema:支持的筛选条件为前缀匹配、后缀匹配、包含(表描述仅支持该条件)、属于(db/schema仅支持该条件)。
前缀匹配、后缀匹配、包含:支持输入不超过256个字符。
属于:支持选择当前资产来源下对应类型的资产对象,最多选择500个资产。
资产清单标签:支持的筛选条件为包含任一、包含所有。
包含任一:资产清单标签需包含所选的任意一个标签值即为满足条件。
包含所有:资产清单标签需包含所选的所有标签值即为满足条件。
智能识别核心字段:开启后,执行任务时根据已选数据范围基于语义分析智能识别核心字段后再执行抽取码表定义;关闭后,针对已选资产对象的所有字段执行抽取码表定义。
重要智能识别核心字段可减少无效信息干扰。请注意,也有可能会忽略需治理的对象。
开始执行:数据范围配置完成后,单击
图标,触发任务。
任务执行流程请参见智能抽取码表定义流程,任务执行成功后,可查看数据采样与探查详情以及抽取的码表定义。
管理推荐码表详情
为您展示数据采样与探查详情以及抽取的码表定义。
数据探查与采样
您可以切换数据源卡片查看对应数据表的数据探查结果。
您可以根据字段名称或描述搜索当前表的数据探查结果。支持切换列表视图
和卡片视图
查看数据探查结果。
列表视图:
为您展示数据探查的字段、字段描述、数据类型、最小值、最大值、平均值、Null值率、0值/空字符串率、唯一值信息。
您可以单击操作列下的查看图标,查看字段的探查结果详情。
卡片视图:
为您分别展示每个参与探查的字段不同探查场景下的探查结果。
您可以快捷筛选字段值分布、空值统计、唯一值统计探查结果或跟随系统自动展示。
抽取码表定义
您可以根据码表的名称、编码、描述进行搜索,也可根据码表所属目录进行筛选,或快捷筛选待审核、应用失败的码表。
为您展示码表的名称(编码)、描述、目录、码值数、来源字段(表)、相似码表、审核状态信息。
来源字段:当前码表根据资产来源抽取的来源字段,您可以单击字段后
图标,查看该字段的字段值分布、空值统计、唯一值统计探查结果。
相似码表:大模型根据当前码表的名称及抽样码值识别出相似码表,您可以在单击码表名称查看详情,在编辑当前码表时根据需要进行合并。
您可以对目标码表执行如下操作。
编辑:支持修改抽样的码表信息。
应用:当审核状态为待审核、应用失败、已弃用时支持操作。即将当前码表添加至治理 > 数据标准 > 标准代码(码表)列表,若单个码表应用,单击操作列下应用图标即可,若为批量应用,可根据审核状态选择应用的范围,支持选择待审核和应用失败2种审核状态的码表进行应用。
弃用:当审核状态为待审核、应用失败时支持操作。若为单个码表弃用,单击操作列下弃用图标即可,若为批量弃用,可根据审核状态选择应用的范围,支持待审核和应用失败2种审核状态的码表进行弃用。弃用后,如有修改,可重新进行应用。
删除:当审核状态为已应用时支持操作。将当前码表删除,您可以在数据标准页面通过批量导入码表或创建码表重新添加。
若在标准代码(码表)列表删除当前码表,则该码表的审核状态置为待审核,可重新进行应用或弃用。