安全白皮书

实时计算Flink版完全兼容开源Apache Flink API,从访问控制、网络、存储、备份恢复、操作审计等方面,提供全面的安全加固功能来保障您的数据安全。

租户隔离

支持多租户的使用场景,通过阿里云账号认证体系(认证方式采用AccessKey对称密钥认证技术)对用户的每个HTTP请求进行签名认证。针对不同用户数据,进行数据存储隔离,并将其离散存储在分布式文件系统中。能够同时满足多用户协同、数据共享、数据保密和安全的需要,做到真正的多租户资源隔离。

访问控制

通过多维度访问控制来保证数据安全。

RAM权限控制

阿里云提供访问控制RAM(Resource Access Management),帮助您管理不同RAM用户对Flink资源的操作权限,并支持资源目录成员(包括云SSO用户)登录访问。详情请参见什么是访问控制支持的登录方式

项目空间权限

提供灵活和安全的项目空间权限管理机制,多个用户共同使用某项目空间进行作业开发、运维时,支持根据实际业务需求灵活定义角色以及配置细粒度的权限。详情请参见项目空间授权

白名单

默认情况下,Flink上下游存储设备默认拒绝外部设备的访问。因此,您需要在目标存储设备白名单中添加Flink虚拟交换机的网段。如果您的虚拟交换机和上下游存储不在同一可用区,添加虚拟交换机网段至白名单后,网络可以连通。详情请参见网络连通性

Hive Kerberos集群访问

Kerberos是一种计算机网络授权协议,用来进行身份认证,以保证通信的安全性。如果您的Flink作业要访问的Hive支持了Kerberos,则需要您先在实时计算控制台注册Hive Kerberos集群,然后在Flink作业中配置Kerberos集群信息,即可访问支持了Kerberos的Hive,具体操作请参见注册Hive Kerberos集群

网络隔离

支持通过专有网络和公网访问上下游服务。建议您使用安全性更高的专有网络。同时,支持您在实时计算控制台上管理上下游服务域名。

专有网络(VPC)

VPC(Virtual Private Cloud)是私有网络环境,通过底层网络协议,在网络二层完成网络隔离,具备安全可靠、灵活可控、简单易用的特性和较强的可扩展性。详情请参见什么是专有网络

公网(Internet)

可以通过阿里云提供的NAT网关实现VPC网络与公网网络互通,使得Flink通过公网访问其他上下游服务(不推荐),详情请参见网络连通性

域名管理

在实时计算控制台上,您可以管理上下游服务的域名。

数据加密

密钥管理

支持在SQL作业的DDL或日志配置中配置密钥,避免明文AccessKey带来的安全风险。具体操作请参见变量管理

备份恢复

提供多种备份方式来保障数据的持久化与可恢复性。

数据备份

采用存储计算分离架构,使用对象存储OSS来存储作业系统检查点、作业快照、日志和JAR包等信息。Flink全托管服务会在您选择的Bucket下创建不同目录来保存不同类型的数据,默认保存时间为7天。更多信息请参见开通实时计算Flink版

数据恢复

  • 手动创建作业快照:如果您需要在某个特定时间(作业运行时或者停止时)手动创建一个作业快照,并希望从该快照恢复作业,则可以手动创建作业快照。可用于数据恢复、快速部署业务或数据验证等场景。

  • 配置定时自动创建作业快照:如果您需要系统可以自动定时创建作业快照,则可以配置作业快照创建周期。保存该规则后,作业运行过程中,系统会根据此周期来自动创建作业快照,无需您进行手动创建。

  • 从(其他作业)指定快照恢复作业:如果您需要从指定快照恢复作业,则可以指定作业快照,进行作业恢复。

    说明

    支持作业间快照的共享,此时您需要满足作业间的状态的兼容性。例如,进行双跑测试。

作业状态备份

您可以在作业运维页面,单击目标作业名称,在状态集管理页签查看作业状态集。详情请参见查看状态生成总览

任务快速重启

当流作业中的某个Task发生异常时,为了保证数据一致性,同一个PipelineRegion的所有Task都会进行Failover。作业Failover后,Source节点需要从上一个系统检查点开始消费数据。然而,在一些作业中, Task Failover后还需要下载大资源文件或者State数据。如果作业并发很高,所有Task进行一轮Failover的调度时间可能也会比较长。这些都会导致作业出现延迟或阻塞,一段时间内无法正常消费数据等问题,恢复正常运行所需的时间会更长。Task快速重启配置可以有效缓解上述问题,详情请参见Task快速重启配置

同城容灾

支持同城(同地域内不同可用区之间)灾备能力,通过使用跨可用区CU类型的项目空间,实现在同城的不同可用区进行调度和切换的能力。当单个可用区发生故障时,该项目空间下的Flink作业能够在备可用区恢复,从而有效避免因单个可用区故障导致服务中断,确保作业的持续性和高可用性。详情请参见同城高可用

操作审计

操作审计(ActionTrail)可以帮助您监控并记录阿里云账号的活动,包括通过阿里云控制台、OpenAPI、开发者工具对云上产品和服务的访问和使用行为。您可以将这些行为事件下载或保存到日志服务SLS或对象存储OSS,然后进行行为分析、安全分析、资源变更行为追踪和行为合规性审计等操作。ActionTrail的详细信息,请参见什么是操作审计

本产品已经对接阿里云操作审计(ActionTrail),无需付费,您就可以在ActionTrail中获取资源的操作事件和相关信息的场景,详情请参见查看Flink审计事件