数据安全治理最佳实践场景-大数据开发治理平台 DataWorks-阿里云

在该阶段，DataWorks为您提供了数据分类分级、规范数据开发流程、企业级身份认证、开源身份隔离等多个场景的最佳实践，帮助企业做好数据安全治理的相关基础防护工作。

场景一：数据分级分类

无论在任何行业，数据分级分类都是监管首要检查的对象，也是企业应审的首要任务。因此，如何对本企业敏感数据识别、分级分类打标将成为一切安全治理工作的开始。

敏感数据一般包含如下三类。

敏感数据类别	描述
个人身份信息（Personally Identifiable Information，PII）	任何可以识别个人的信息，如姓名、社会保险账号、社会安全号码、出生日期、出生地点、母亲的娘家姓或生物识别记录，也包括关联信息，如医疗、教育、金融和就业信息等。
受保护的健康信息（Protected Health Information，PHI）	与个人有关的任何健康信息，如身体健康状况、病例信息、医疗费用等。从另一方面来说，PHI也属于PII。
专有数据（Proprietary Data）	影响组织核心竞争力、一旦泄露会对组织造成损害的数据，典型例子有设计图纸、药物配方、客户信息等。

管理员可以根据上述敏感数据类型及本企业的数据属性，定义本企业/组织的数据敏感级别，一般情况下可以参考如下分级方式。

数据属性	分级
政府机构	绝密（Top Secret）：对国家安全造成异常严重损害。秘密（Secret）：对国家安全造成严重损害。机密（Confidential）：对国家安全造成损害。未分类（Unclassified）：对国家安全不会造成损害。
非政府组织	机密/专有（Confidential/Proprietary）：泄密会对企业竞争力造成异常严重影响，偏重于商业秘密、专利等。私有（Private）：泄密会对企业造成严重影响，偏重于企业员工或用户的个人数据或财务数据等。例如，个人健康相关的X射线。敏感（Sensitive）：泄密会对企业造成影响，偏重于网络拓扑图、内部流程制度等。公开（Public）：泄密不会对企业造成影响，通常会保护其完整性，如防网页篡改。

如仍然无法确认分级标准，则可参考所在行业国家标准。例如：

分级、分类标准确认完毕后，即可前往DataWorks数据保护伞模块配置分级分类、数据识别规则，步骤如下图。

数据仓库不仅是企业的核心数据资产，也是业务决策神经中枢。因此，对于生产环境的机密性、稳定性需通过DevOps的方式来保障。DataWorks提供了多个预设角色，并配合标准模式工作空间，支持团队内分权管理、各司其职，规范化开展数据生产开发流程。

标准模式下，可以给数据开发人员授权“开发”角色、给运维人员授权“运维”或“部署”角色、给数据团队主管授权“空间管理员”角色、给分析师授权“数据分析师”角色。这样，便可形成规范化的数据开发与生产流程。

数据建模链路：先由数据团队主管定义好建模过程中可能使用到的数据标准，再由数据建模人员设计并提交模型，最后经由数据团队主管、运维或部署人员审核无误后发布至生产环境。
数据开发与生产链路：开发人员在开发环境先开发代码、配置调度依赖、调试任务，待冒烟测试无误后可申请提交发布，此时应由一个运维/部署/管理员角色来进行代码Review，确认无误后即可发布到生产环境，让规范、安全的代码在生产环境定期运行并产出数据。

通过该方式，每个人各司其职，职责分离，有效避免了“自己开发、自己发布”的情况，同时，多人协作把控风险，可降低故障率。

说明

不同人员建议只分配一个对应的角色。例如，不可以给数据开发人员空间管理员的角色；或给某开发人员既分配开发角色又分配运维角色，这样会导致过度授权、提升故障风险。

企业期望直接通过本地AD或LDAP来统一管理身份，而不是在云上维护一套账号，该操作可能导致管理难、离职账号回收遗漏等问题。阿里云支持基于SAML 2.0和OIDC的SSO（Single Sign On，即单点登录），也称为身份联合登录。通过管理者身份，可以实现系统与阿里云的单点登录集成。例如：

企业通常会使用DataWorks联合各类大数据引擎（例如，MaxCompute、E-MapReduce）进行数据开发。

使用DataWorks及MaxCompute进行数据开发时，在标准模式工作空间下默认支持身份权限隔离。
使用DataWorks及E-MapReduce时，支持管理者将DataWorks空间成员与EMR集群的Linux系统账号（已通过Ranger或Sentry分配好权限）、OPEN LDAP账号、Kerberos账号进行一一映射，实现人员权限隔离。