阶段二:数据安全防护措施及策略增强建设

在该阶段,DataWorks为您提供了新人入职自动化授权、按需申请数据权限&多级审批、数据可用而不可见、数据完整性与可用性专项治理等多个场景的最佳实践,帮助企业做好数据安全防护措施并建设更加完善的安全治理策略。

场景一:新人入职自动化授权

当企业规模变大,使用数仓的人员就会变多,同时,企业入职、离职、转岗的人员也会越来越多。当数据分析师或数据开发人员新人入职时,如果仅通过人工授权,则工作量巨大,且可能出现错漏。此时,管理员可通过定义“DataWorks自定角色 + MaxCompute Role”及DataWorks OpenAPI来进行自动化授权,实现人员入职成功后即可拥有最基本的数据权限。

image.png

操作步骤如下:

  1. 步骤一:为各部门对应的MaxCompute项目创建自定义Role,并通过Policy定义数据权限。

  2. 步骤二:在DataWorks中创建自定义角色并映射关联至MaxCompute的Role。

  3. 步骤三:将DataWorks添加成员的OpenAPI接口,嵌入至本企业HR系统中,按需触发或在人员入职成功后自动将对应的RAM身份添加至DataWorks自定义角色。

  4. 步骤四:最终,入职的新人便会默认拥有DataWorks空间角色及MaxCompute数据权限。

详情请参见DataWorks自定义角色DataWorks添加成员OpenAPIMaxCompute Role Policy配置

场景二:按需申请数据权限&多级审批

在日常工作中,开发人员、数据分析师常需要读取他人产出的结果表,他们可在DataWorks数据地图检索表的元数据,并对表或表的某列进行权限申请。默认情况下,空间管理员或表Owner审批后便会自动授权,详情请参见DataWorks表权限申请及审批

对数据安全要求较严格的企业,其内部制定了相关授权规范,例如:

  • 敏感级别较低的数据由主管审批,较高密级的数据则由更高职位的人员审批。

  • 由于不是所有审批人都会登录至DataWorks进行审批,因此,要求审批流程能延伸至用户外部审批系统(例如,钉钉、飞书、企业微信)。

面对这类场景,我们支持基于数据分级自定义审批流程,同时,支持通过OpenAPI与审批消息实现与外部系统对接,满足企业对平台开放性的诉求。

image.png

详情请参见通过分级分类配置审批策略安全审批单相关OpenAPI中心审批消息

场景三:数据可用而不可见

在数据分析场景下,若非特殊情况,数据分析师通常不需要查询明细数据;在数据开发、测试场景下,开发人员在生产环境中导出数据进行开发或测试时,不展示明细数据时也不会影响开发工作。

为避免数据分析师、开发人员滥用数据,出于非工作目的查看明细数据,则可采用数据脱敏能力(支持保留格式加密、掩盖、HASH加密、字符替换、区间变换、取整、置空等多种方式),即很多法律法规中都重点强调的“去标识化”,实现在即席查询场景的界面化脱敏通过数据集成任务将数据从生产同步至开发环境时的脱敏

说明

必须要先完成数据分级分类,才能针对已识别到的敏感数据进行脱敏。

效果如下:

image.png

详情请参见数据脱敏能力概述

场景四:数据完整性与可用性专项治理

在整体数据链路的处理过程中,为保证数据能准时产出,以及最终产出数据的质量,数仓团队需要对数据仓库ODS、CDM和ADS层的数据分别进行监控,如产出脏数据(例如,缺失值、空值、异常值),则需及时告警或阻断脏数据向下游蔓延。数据质量和智能监控均关乎数据信息的完整性(Integrity)与可用性(Availability)。

在DataWorks中,数据质量的管理流程包括业务的数据资产定级加工卡点风险点监控及时性监控。同时,智能监控为您提供如下功能

  • 支持用户定义任务优先级与任务承诺完成时间。

  • 及时捕捉重要任务(例如,高优先级任务、部分基线上的任务)无法按时完成的异常情况并提前预警。

  • 保障复杂依赖场景下重要数据能在预期时间内顺利产出,帮助您降低配置成本、避免无效报警、自动监控所有重要任务。

详情请参见数据质量最佳实践教程DataWorks智能基线