您需要了解哪些资产需要被保护、资产存在的风险、企业/组织是否合规、如何处理内放攻防、如何落地安全运营等关键问题,才能有效落地数据安全治理。同时,大数据系统基于“存储、用户、入口、流转、交付”等多方面的特点,存在诸多安全治理难点。
数据安全治理的关键问题
数据安全治理能否清楚、准确地回答如下问题,将从侧面反映安全治理项目是否能有效地落地。
哪些资产需要被保护?
这些资产存在哪些风险?
组织是否合规?
内外攻防怎么做?
安全运营应如何落地?
大数据体系的特点与安全治理难点
由于大数据系统在“存储、用户、入口、流转、交付”等多方面的特点,想要回答好上述问题,存在诸多难点。
存储
众所周知,大数据系统以数据类型多(结构化、非结构化、半结构化)、数据量大(动辄PB级别)著称,某些巨头组织一天就能新增数十万甚至数百万张表,如此体量给数据分级分类带来了极大挑战,通过人工进行数据分级分类显然是不现实的,难免会出现遗漏的情况。
用户
大数据系统的用户基数大,覆盖所有与数据相关的角色。使用大数据系统的常见人员包括开发、运营、分析师,甚至销售及HR都会来查询自己所需的数据。如此多类型的用户,授权、管理难度加大,什么样的人员需要授予什么样的权限?如果他们离职、换部门了怎么办?这其中很有可能出现权限蠕变、过度授权、离职撤权不彻底的情况,这些都为数据安全事件埋下了隐患。
入口
由于大数据系统要服务不同的角色,每种角色技术水平不同,因此需提供不同的入口给各类人员使用。例如,技术人员可以使用命令行,但数据分析师或运营就需要使用可视化界面或BI工具。
不同的入口其登录认证、鉴权逻辑、审计能力可能存在差异。最常见的莫过于多个用户使用同一个身份从某个入口访问/操作数据的场景,此类场景就是典型的传递信任风险。此外,由于各上层系统审计能力参差不齐,也可能出现审计事件缺失、审计报文缺失、无法审计到人的违规问题。
流转
大数据系统通常是端到端的一整套数据开发和治理服务,不仅要采集数据、加工数据,更要将数据提供给业务方使用。因此,其存在错综复杂的数据流转链路,包括但不限于即席查询链路、离线传输链路、实时传输链路、数据服务API链路、其他底层API/SDK流出通道。
这些链路都是数据机密性受损的直接渠道,数据流转安全策略定义不清楚或未定义、底层链路未禁用、API安全防护缺失、人员行为未做风控都会导致数据安全事件发生。例如,非法出境(出域)、脱库、泄露等。
交付
大数据系统负责每日产出用于业务决策的数据,产出数据是否准时、准确,可能直接影响高层的决策。若无法准时、准确地产出数据,则相当于损害了信息的完整性(Integrity)、可用性(Availability)。
通常,大数据系统中的工作流涉及多部门、多责任人且跨系统的数据,如何才能协调好这些业务系统准时、保质保量地产出数据,避免出现因业务系统宕机/脏数据导致数据延时产出、产出脏数据,关乎到企业数据业务的连续性问题甚至高层的信任问题。