DataWorks on EMR数据安全方案

在大数据领域,阿里云为企业用户提供了一整套数据安全方案,包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例,为您介绍DataWorks on EMR场景下的数据安全方案。

背景信息

DataWorks on EMR目前支持LDAP认证方式,Open LDAP组件目前已经集成 Hive, spark thrift-server, kyuubi, presto, impala,保障认证通过的用户才可以使用服务进行数据查询。

数据安全能力:数据权限

当前为您提供两种EMR数据权限管控方案:开源Ranger方案和DLF Auth方案。

  • 开源Ranger方案:您需要在集群拉起Ranger服务,管理HDFS、Yarn、Hive库和Hive表等数据权限。

  • DLF Auth方案:您需要在集群拉起DLF Auth服务,来管理库、表、列、函数等数据权限,详细介绍请参见DLF-Auth。DLF Auth的相关授权操作可直接通过DataWorks安全中心完成,操作详情请参见DLF数据访问权限控制

说明

如果您使用OSS作为存储,可以在OSS设置文件访问权限。 DataWorks遵循您在Range、DLF、OSS设置的数据权限限制。

数据安全能力:任务管理

DataWorks提供了大数据开发运维等能力,其中工作空间、安全中心等功能模块可实现对大数据计算任务的管理。

  • 工作空间:通过DataWorks的工作空间规划可以实现工作空间的人员管理、设置大数据作业可见性和可运维性。工作空间的规划与操作请参见工作空间概述添加工作空间成员

  • 安全中心:通过DataWorks的安全中心可以设置DLF表的访问权限。操作详情请参见DLF数据访问权限控制dlfauth

  • 注册集群:注册EMR集群至DataWorks时,可以设置生成任务运行的账号身份,可指定生产任务运行时的集群访问身份为任务责任人、阿里云主账号或阿里云子账号。更多信息,请参见注册EMR集群至DataWorks

    注册EMR引擎时设置的集群访问身份,实际运行EMR集群任务时,会映射为一个EMR集群的账号,DataWorks提供了设置账号映射的能力。

数据安全实践:从Hadoop单一账号升级到完善的数据权限管理

很多用户为快速开始大数据业务,使用单一账号Hadoop进行作业开发运行,没有做用户管理和相应的数据权限管理。如何能够快速升级,保障业务正常运转的情况下增加对数据的安全管控成为后续数据安全的重要挑战。下文以一个升级实践,为您示例可采用的升级方案,如LDAP+Ranger, 或者LDAP+DLF Auth。下文以LDAP+DLF Auth为例介绍一下升级的过程。

  1. 在EMR组件中选择Open LDAP服务,拉起服务后,在Open LDAP中添加用户账号。

  2. 选择某一组件,如Hive, 开启LDAP服务, 同时验证使用LDAP账号可以登录服务,且作业可以正常运行。

  3. 进入管理中心 > 集群管理,注册EMR集群时,按需配置集群访问身份。详情请参见注册EMR集群至DataWorksimage

  4. 集群管理页面, 选择目标集群的账号映射配置,增加云账号与LDAP账号的映射关系。详情请参见设置集群身份映射

    ldap

  5. 您可以前往DataWorks安全中心进行DLF权限设置。请务必确认任务运行的账号拥有所有的数据权限,避免因权限不足,导致任务的失败。