当项目用户具备查询MaxCompute项目中的某些敏感数据的权限,但又不希望用户能看到完整的敏感数据信息时,可以对查询结果进行数据动态脱敏。本文为您介绍如何开启MaxCompute的动态脱敏功能,并提供参考示例。
背景信息
MaxCompute本身不具备动态脱敏的能力,依赖DataWorks数据保护伞服务的数据脱敏功能。您需先开通DataWorks的数据保护伞服务,才可为目标MaxCompute项目开启动态脱敏功能。
为MaxCompute项目开启动态脱敏功能后,您可基于DataWorks的数据识别规则,配置项目的脱敏规则(对哪些敏感数据进行脱敏)。当您从除DataWorks入口外的MaxCompute cmd、log view查询敏感数据时,在展示层按照配置的脱敏规则进行脱敏。该功能可以有效保护诸如手机号、身份证号、银行卡号、车牌号、IP地址等敏感信息。动态脱敏功能仅会对查询结果进行脱敏,不会影响底层存储的数据。
推荐您使用DataWorks预设的数据识别规则,如果需要自定义数据识别规则,请参见配置数据识别规则并执行识别任务。
使用限制
仅DataWorks专业版及以上版本,才可使用此功能。DataWorks基础版暂时无法使用此功能,如您的DataWorks为基础版,请升级DataWorks为合适版本。详情请参见DataWorks各版本详解。
仅华北2(北京)、华东2(上海)、华东1(杭州)、西南1(成都)、华南1(深圳)、华北2(北京政务云)、华东2(上海金融云)、中国(香港)、新加坡、德国(法兰克福)、马来西亚(吉隆坡)、美国(硅谷)地域支持使用MaxCompute底层脱敏。
MaxCompute底层脱敏的生效范围为会话级别,即在进行会话查询时需增加相关脱敏服务调用语句,脱敏配置才会生效。
MaxCompute底层脱敏不支持对MaxCompute数据表的主键字段进行脱敏。
MaxCompute底层脱敏仅支持对String类型字段进行脱敏。
只有MaxCompute项目中已经存在数据并且数据已创建24小时(h)的情况下,才能使用此功能。
准备工作
准备待脱敏的MaxCompute项目和数据。具体操作,请参见创建MaxCompute项目和导入数据。
访问数据保护伞服务并开通。具体操作,请参见进入数据保护伞。
在服务声明页面,勾选我已阅读并接受以上协议条款,单击立刻开通。
申请网络白名单。
阿里云主账号填写表单申请MaxCompute项目访问外部网络,开通后才可调用脱敏服务。
如果目标IP或域名不存在安全限制,审核通过后即可访问目标IP或域名,审核周期为3个工作日之内。
申请内容格式如下:
项目名称(待脱敏的项目名称) : data_shield_hz 日志地址 : 问题描述 : 对Project打开域名白名单,使UDF运行的时候可以访问某些域名。 区域:杭州 要访问的域名: dsg-cn-hangzhou.data.aliyun.com,dsg-oss-dic-ori-hz.oss-cn-hangzhou.aliyuncs.com 端口:80,443
不同地域申请的域名不同,请填写以下列表中地域对应的域名。
上海:dsg-cn-shanghai.data.aliyun.com,dsg-oss-dic-ori.oss-cn-shanghai.aliyuncs.com 杭州:dsg-cn-hangzhou.data.aliyun.com,dsg-oss-dic-ori-hz.oss-cn-hangzhou.aliyuncs.com 北京:dsg-cn-beijing.data.aliyun.com,dsg-oss-dic-ori.oss-cn-beijing.aliyuncs.com 成都:dsg-cn-chengdu.data.aliyun.com,dsg-oss-dic-ori-cd.oss-cn-chengdu.aliyuncs.com 深圳售卖区: dsg-cn-shenzhen.data.aliyun.com,dsg-oss-dic-ori-sz.oss-cn-shenzhen.aliyuncs.com 华北政务云: dsg-cn-north-2-gov-1.data.aliyun.com,dsg-oss-dic-ori-north-2-gov-1.oss-cn-north-2-gov-1-internal.aliyuncs.com 上海金融云:dsg-cn-shanghai-finance-1.data.aliyun.com,dsg-oss-dic-ori-sh-fin-1.oss-cn-shanghai.aliyuncs.com 香港 :dsg-cn-hongkong.data.aliyun.com,dsg-oss-hongkong.oss-cn-hongkong.aliyuncs.com 新加坡: dsg-ap-southeast-1.data.aliyun.com,dsg-oss-ap-southeast-1.oss-ap-southeast-1.aliyuncs.com 硅谷: dsg-us-west-1.data.aliyun.com,dsg-oss-us-west-1.oss-us-west-1.aliyuncs.com 马来西亚:dsg-ap-southeast-3.data.aliyun.com,dsg-oss-ap-malaysia.oss-ap-southeast-3.aliyuncs.com 法兰克福: dsg-eu-central-1.data.aliyun.com,dsg-oss-eu-central-1.oss-eu-central-1-internal.aliyuncs.com
开启数据脱敏功能
选择脱敏场景。
登录DataWorks控制台,进入数据保护伞页面。具体操作,请参见进入数据保护伞。
在左侧导航栏,选择 ,进入数据脱敏管理。
在脱敏场景下拉列表选择MaxCompute引擎层脱敏。
说明如果需要在DataWorks界面上展示脱敏效果,需要打开数据开发/数据地图展示脱敏。
创建数据脱敏场景更多内容请参见创建数据脱敏场景。
可选:若脱敏规则指定的数据不需要对某些用户进行脱敏展示,您可配置脱敏规则白名单。
在数据脱敏管理界面,单击白名单配置管理。
在白名单配置管理页签,单击右上方的新增白名单。
在新增白名单对话框中,选择规则、用户组和生效时间。
说明设置白名单生效时间后,若不在白名单脱敏时间的区间内,用户在查询该敏感信息时将会继续脱敏。
查询SQL确认脱敏结果
DataWorks数据开发界面
关闭页面查询内容脱敏开关,详情请参见安全设置与其他。
执行查询SQL。
在您执行具体查询SQL前,请先在当前会话中通过set命令调用脱敏服务,不同地域调用底层脱敏服务命令如下所示。
说明MaxCompute底层数据脱敏仅支持会话级别使用。
上海 set odps.output.field.formatter={"name":"aegis:<SchemaName>:masking_v2","param":["alias","index"]}; set odps.isolation.session.enable=true; set odps.internet.access.list=dsg-cn-shanghai.data.aliyun.com:80,dsg-cn-shanghai.data.aliyun.com:443,dsg-oss-dic-ori.oss-cn-shanghai.aliyuncs.com:80,dsg-cn-shanghai.data.aliyun.com:443; 杭州 set odps.output.field.formatter={"name":"aegis_hz:<SchemaName>:masking_v2","param":["alias","index"]}; set odps.isolation.session.enable=true; set odps.internet.access.list=dsg-cn-hangzhou.data.aliyun.com:80,dsg-cn-hangzhou.data.aliyun.com:443,dsg-oss-dic-ori-hz.oss-cn-hangzhou.aliyuncs.com:80,dsg-oss-dic-ori-hz.oss-cn-hangzhou.aliyuncs.com:443; 北京 set odps.output.field.formatter={"name":"aegis_bj:<SchemaName>:masking_v2","param":["alias","index"]}; set odps.isolation.session.enable=true; set odps.internet.access.list=dsg-cn-beijing.data.aliyun.com:80,dsg-cn-beijing.data.aliyun.com:443,dsg-oss-dic-ori.oss-cn-beijing.aliyuncs.com:80,dsg-oss-dic-ori.oss-cn-beijing.aliyuncs.com:443; 成都 set odps.output.field.formatter={"name":"aegis_cd:<SchemaName>:masking_v2","param":["alias","index"]}; set odps.isolation.session.enable=true; set odps.internet.access.list=dsg-cn-chengdu.data.aliyun.com:80,dsg-cn-chengdu.data.aliyun.com:443,dsg-oss-dic-ori-cd.oss-cn-chengdu.aliyuncs.com:80,dsg-oss-dic-ori-cd.oss-cn-chengdu.aliyuncs.com:443; 香港 set odps.output.field.formatter={"name":"aegis_hk:<SchemaName>:masking_v2","param":["alias","index"]}; set odps.isolation.session.enable=true; set odps.internet.access.list=dsg-cn-hongkong.data.aliyun.com:80,dsg-cn-hongkong.data.aliyun.com:443,dsg-oss-hongkong.oss-cn-hongkong.aliyuncs.com:80,dsg-oss-hongkong.oss-cn-hongkong.aliyuncs.com:443; 硅谷 set odps.output.field.formatter={"name":"data_sheild_silicon_dev:<SchemaName>:masking_v2","param":["alias","index"]}; set odps.isolation.session.enable=true; set odps.internet.access.list=dsg-us-west-1.data.aliyun.com:80,dsg-us-west-1.data.aliyun.com:443,dsg-oss-us-west-1.oss-us-west-1.aliyuncs.com:80,dsg-oss-us-west-1.oss-us-west-1.aliyuncs.com:443;
主要参数解释如下。
命令
含义
odps.output.field.formatter
表示要调用ODPS的脱敏函数(此脱敏函数要求脱敏字段为String类型)。
aegis_hz:<SchemaName>:masking_v2:表示函数名称(name)。
其中SchemaName是根据MaxCompute项目是否配置Schema三层模型,若已配置则需要配置对应的SchemaName。关于Schema的介绍详情,请参见Schema操作。
["alias","index"]:表示参数信息(默认参数)。
odps.isolation.session.enable
表示当前调用是会话级别。会话结束后,脱敏功能便会失效。
odps.internet.access.list
表示运行执行函数时访问相关域名,用于查询数据保护伞的脱敏信息。
以杭州地域SchemaName为default为例,完整实现MaxCompute底层数据脱敏脚本如下所示。
set odps.output.field.formatter={"name":"aegis_hz:default:masking_v2","param":["alias","index"]}; set odps.isolation.session.enable=true; set odps.internet.access.list=dsg-cn-hangzhou.data.aliyun.com:80,dsg-cn-hangzhou.data.aliyun.com:443,dsg-oss-dic-ori-hz.oss-cn-hangzhou.aliyuncs.com:80,dsg-oss-dic-ori-hz.oss-cn-hangzhou.aliyuncs.com:443; select * from table;
在数据开发界面查看脱敏结果。
odpscmd界面查询结果
配置访问域名。
在您执行具体查询SQL前,请先在odpscmd服务的Config配置文件中配置访问域名。
不同地域的域名配置,具体如下。
上海 set odps.internet.access.list=dsg-cn-shanghai.data.aliyun.com:80,dsg-cn-shanghai.data.aliyun.com:443,dsg-oss-dic-ori.oss-cn-shanghai.aliyuncs.com:80,dsg-cn-shanghai.data.aliyun.com:443; 杭州 set odps.internet.access.list=dsg-cn-hangzhou.data.aliyun.com:80,dsg-cn-hangzhou.data.aliyun.com:443,dsg-oss-dic-ori-hz.oss-cn-hangzhou.aliyuncs.com:80,dsg-oss-dic-ori-hz.oss-cn-hangzhou.aliyuncs.com:443; 北京 set odps.internet.access.list=dsg-cn-beijing.data.aliyun.com:80,dsg-cn-beijing.data.aliyun.com:443,dsg-oss-dic-ori.oss-cn-beijing.aliyuncs.com:80,dsg-oss-dic-ori.oss-cn-beijing.aliyuncs.com:443; 成都 set odps.internet.access.list=dsg-cn-chengdu.data.aliyun.com:80,dsg-cn-chengdu.data.aliyun.com:443,dsg-oss-dic-ori-cd.oss-cn-chengdu.aliyuncs.com:80,dsg-oss-dic-ori-cd.oss-cn-chengdu.aliyuncs.com:443; 香港 set odps.internet.access.list=dsg-cn-hongkong.data.aliyun.com:80,dsg-cn-hongkong.data.aliyun.com:443,dsg-oss-hongkong.oss-cn-hongkong.aliyuncs.com:80,dsg-oss-hongkong.oss-cn-hongkong.aliyuncs.com:443; 硅谷 set odps.internet.access.list=dsg-us-west-1.data.aliyun.com:80,dsg-us-west-1.data.aliyun.com:443,dsg-oss-us-west-1.oss-us-west-1.aliyuncs.com:80,dsg-oss-us-west-1.oss-us-west-1.aliyuncs.com:443;
主要参数解释如下。
命令
含义
odps.internet.access.list
表示运行执行函数时访问相关域名,用于查询数据保护伞的脱敏信息。
以杭州地域SchemaName为default为例,配置文件代码如下:
project_name=data_shield_hz # app access id and key are optional for individual users # app_access_id=<app_accessid> # app_access_key=<app_accesskey> access_id=客户aid access_key=客户ak # this endpoint is for office environment end_point=http://service.odps.aliyun.com/api # this url is for odpscmd update update_url=http://odps.alibaba-inc.com/official_downloads # download sql results by instance tunnel use_instance_tunnel=true # the max records when download sql results by instance tunnel instance_tunnel_max_record=10000 set odps.internet.access.list=dsg-cn-hangzhou.data.aliyun.com:80,dsg-cn-hangzhou.data.aliyun.com:443,dsg-oss-dic-ori-hz.oss-cn-hangzhou.aliyuncs.com:80,dsg-oss-dic-ori-hz.oss-cn-hangzhou.aliyuncs.com:443;
执行查询SQL。
在您执行具体查询SQL前,请先在当前会话中通过set命令调用脱敏服务,不同地域调用底层脱敏服务命令如下所示。
说明MaxCompute底层数据脱敏仅支持会话级别使用。
上海 set odps.output.field.formatter={"name":"aegis:<SchemaName>:masking_v2","param":["alias","index"]}; set odps.isolation.session.enable=true; 杭州 set odps.output.field.formatter={"name":"aegis_hz:<SchemaName>:masking_v2","param":["alias","index"]}; set odps.isolation.session.enable=true; 北京 set odps.output.field.formatter={"name":"aegis_bj:<SchemaName>:masking_v2","param":["alias","index"]}; set odps.isolation.session.enable=true; 成都 set odps.output.field.formatter={"name":"aegis_cd:<SchemaName>:masking_v2","param":["alias","index"]}; set odps.isolation.session.enable=true; 香港 set odps.output.field.formatter={"name":"aegis_hk:<SchemaName>:masking_v2","param":["alias","index"]}; set odps.isolation.session.enable=true; 硅谷 set odps.output.field.formatter={"name":"data_sheild_silicon_dev:<SchemaName>:masking_v2","param":["alias","index"]}; set odps.isolation.session.enable=true;
主要参数解释如下。
命令
含义
odps.output.field.formatter
表示要调用ODPS的脱敏函数(此脱敏函数要求脱敏字段为string类型)。
aegis_hz:<SchemaName>masking_v2:表示函数名称(name)。
其中SchemaName是根据MaxCompute项目是否配置Schema三层模型,若已配置则需要配置对应的SchemaName。关于Schema的介绍详情,请参见Schema操作。
["alias","index"]:表示参数信息(默认参数)。
odps.isolation.session.enable
表示当前调用是会话级别。会话结束后,脱敏功能便会失效。
以杭州地域为例,完整实现MaxCompute底层数据脱敏脚本如下所示。
set odps.output.field.formatter={"name":"aegis_hz:default:masking_v2","param":["alias","index"]}; set odps.isolation.session.enable=true; select * from table;
查看脱敏结果。
取消使用底层脱敏
执行如下SQL语句,取消使用的底层脱敏。
set odps.output.field.formatter=;
select * from table;
或在DataWorks中配置脱敏场景时,数据范围不要选择目标MaxCompute项目,详情请参见配置脱敏场景。