数据采样可帮助业务人员更好地了解数据形态,助力SQL开发。本文为您介绍如何进行采样配置。
前提条件
需开通资产运营功能才能使用采样配置。
使用限制
仅支持针对字段数不超过1500个的数据表进行自动采样,超过则自动忽略不采样。
权限说明
超级管理员、运营管理员及具有采样配置-管理权限的自定义全局角色支持管理采样配置。
操作步骤
在Dataphin首页的顶部菜单栏,选择治理 > 元数据。
在左侧导航栏选择通用配置 > 采样配置,在采样配置页面,您可以为计算源表和数据源表分别进行采样配置。
基础配置
单击底部编辑按钮,配置参数。
参数
描述
数据采样
采样配置的整体控制开关。
开启后,才可配置基础配置、计算源和数据源,建议检查计算源和数据源页面的自动采样数据配置是否符合预期。
关闭后,自动采样和手动采样均无法触发,也无法在相关场景中使用采样数据。您可以选择同步删除采样数据或继续保留不删除。
同步删除:将同步删除保留的样例数据。
继续保留不删除:将无法查看和使用保留的样例数据,但下次重新开启采样时可直接使用。
查询配置
自动采样触发场景
配置自动触发数据采样查询的任务类型,支持元数据采集、数据探查、安全识别规则执行/标准落标映射规则执行,系统根据最近采样更新时间和采样更新策略自动判断是否需要重新发起新的采样查询任务。
数据探查:需开通全域质量或域内质量功能才能使用数据探查。
安全识别规则执行/标准落标映射规则执行:当安全识别规则涉及按内容识别、标准落标映射配置了按识别特征智能映射时,建议开启,否则每次识别都将进行临时数据查询,可能造成较多计算资源消耗。
自动采样更新策略
用于控制数据采样查询的更新频率,系统根据最近采样更新时间(包括自动采样和手动采样)和采样更新策略判断上述场景是否需要进行采样查询,支持每隔固定时间更新一次和不更新。
每隔固定时间更新一次:即最近采样更新时间 > N天则重新采样,N取值范围为1~60天,例如:N为7,在任务执行时,如果距离上次采样成功超过7天,则重新采样。
不更新:仅采样存储一次,如果采样成功,则后续不会主动更新数据。
空值补偿
针对数据采样查询字段存在空值时处理策略,支持不补偿和采样结果存在部分空字段时,针对空字段补偿查询。
不补偿:当采样数据中存在部分字段全为空值(Null)时,针对该部分字段系统不再次进行非空采样,也不对该字段进行识别。
采样结果存在部分空字段时,针对空字段补偿查询:当采样数据中存在部分字段全为空值(Null)时,针对该部分字段系统将再次进行非空采样,采样成功后将该查询结果用于下一次识别;采样失败则该字段不进行识别。脚本示例如下:
--第一次采样查询tableA的a,b,c三个字段 select a,b,c from tableA limit 100; --因字段a前100条数据均为空值,对字段a进行第二次采样查询 select distinct a from tableName where a is not null limit 100;说明空值补偿有助于提升识别准确率,但也会消耗更多计算资源,请根据业务需求合理配置。
存储配置
采样存储
保存单个字段采样的样例值条数,默认100条,支持输入1~100之间整数。
使用配置
用于数据预览
可用于资产清单和资产目录的数据预览,当数据表已有采样数据时,优先展示采样数据,也可手动触发查询最新数据;若不存在采样数据,则会自动触发数据预览查询。
针对每个字段的采样数据,系统会独立存储和排序展示,但不保证行记录的存在性和正确性。
预览时将优先校验当前账号的列级权限和该字段脱敏策略配置,仅可查看有查看权限字段对应样例数据,但不会基于行级权限进行数据过滤。
例如:A表filed_b配置了脱敏策略,原始数据和样例数据如图:

用于安全/标准识别
需购买数据安全或数据标准任一功能才展示此配置。当安全识别规则涉及按内容识别、标准落标映射配置了按识别特征智能映射时,默认使用采样数据。如果暂无可用数据,则会进行临时数据查询。
用于智能应用
当且仅当开通了一个智能应用时展示此配置。您可以在超级X > 智能应用管理 > 智能应用页面编辑智能应用时进行采样数据配置。
单击确定,完成基础配置。
计算源
配置可开启自动采样数据的数据表范围。
单击底部编辑按钮,配置参数。
参数
描述
自动采样
开启后,可为计算源表配置自动采样数据,您可以在基础配置页面修改自动采样的触发场景。
自动采样配置
物理表范围
支持通过项目圈选可开启自动采样的物理表及物理视图范围,支持选择全部项目、全部生产项目(Basic及Prod)、指定项目。
全部项目:指所有项目下的物理表和物理视图(包括当前已创建和后续新建的所有项目)均可开启自动采样。
全部生产项目(Basic及Prod):指所有生产项目下的物理表和物理视图(包括当前已创建和后续新建的所有生产项目)均可开启自动采样。
指定项目:选择需开启自动采样的项目,支持多选。
逻辑表范围
支持通过数据板块圈选可开启自动采样的逻辑表及逻辑视图范围,支持选择全部板块、全部生产板块(Basic及Prod)、指定板块。
全部板块:指所有板块下的逻辑表和逻辑视图(包括当前已创建和后续新建的所有板块)均可以开启自动采样。
全部生产板块(Basic及Prod):指所有生产板块下的逻辑表和逻辑视图(包括当前已创建和后续新建的所有生产板块)均可开启自动采样。
指定板块:选择需开启自动采样的板块,支持多选。
采样执行
执行空间
选择数据采样查询任务执行的计算资源,支持数据所在项目和指定项目。
数据所在项目:在已圈选数据资产的所属项目中执行。
指定项目:根据已圈选数据资产所属环境,在对应环境的项目中执行(开发表使用开发项目计算资源,生产表使用生产项目计算资源)。
说明数据采样查询会占用一定的计算资源,建议使用数据资产所属项目执行。
如果您希望减少对数据所在项目的资源压力和查询费用(如选择单独的包年包月项目),避免对正常业务项目的干扰,也可以分配专门的项目资源/队列用于采样查询。
请确保选中项目中计算源配置的账号有相关采样数据表的读取权限。
并发限流
用于控制同时运行数据采样查询任务的数量,默认为16,支持配置1~100之间的整数。
说明并发查询有助于保障计算集群稳定性,避免短期内发起大量查询任务导致系统宕机。
增大并发数会加快采样查询任务速度,但对集群会造成更大压力,建议结合业务需求合理配置。
扫描会占用集群计算资源。
查询超时
若数据采样查询任务的运行总时长(开始运行到结束运行时间,不包括资源等待和调度等待时间)超过设置的阈值仍未结束,系统会自动终止并置为失败。默认为0.5小时,支持设置的时间范围为0~12小时,最多设置一位小数。
单击确定,完成计算源表的数据采样据配置。
数据源
数据源页面为您展示元数据已采集到且支持采样数据的数据源类型。配置可开启自动采样数据的数据源表范围。
您可查看数据源的名称、类型、任务的最大并发数、自动数据采样状态、查询超时时间及最新修改时间信息。
您可根据数据源名称进行搜索,也可根据数据源类型进行筛选。
您可对目标数据源配置采样数据,单击操作列下的编辑图标,在采样配置对话框中,配置参数。
参数
描述
自动采样范围
开发/生产环境
仅数据源配置了对应环境的采集任务时支持配置。可分别配置生产环境和开发环境的自动采样范围。开启后,您可以根据不同的数据源类型配置不同的任务采集范围,详情请参见采集范围。
采样执行
并发限流
用于控制同时运行数据采样查询任务的数量,默认为16,支持配置1~100之间的整数。
说明并发查询有助于保障计算集群稳定性,避免短期内发起大量查询任务导致系统宕机。
增大并发数会加快采样查询任务速度,但对集群会造成更大压力,建议结合业务需求合理配置。
扫描会占用集群计算资源。
查询超时
若数据采样查询任务的运行总时长(开始运行到结束运行时间,不包括资源等待和调度等待时间)超过设置的阈值仍未结束,系统会自动终止并置为失败。默认为0.5小时,支持设置的时间范围为0~12小时,最多设置一位小数。
单击确定,完成数据源表的数据采样配置。