本文为您介绍在数据湖构建中如何快速使用DLF。
前提条件
在使用DLF前,已完成阿里云账号角色授权,且已开通DLF服务。详情请参见授权并开通DLF。
说明授权和开通操作仅需在首次使用DLF时完成。
若使用RAM用户管理Catalog,需满足以下权限要求:
管控API层面:RAM用户需要具备AliyunDLFFullAccess权限,或被授予Catalog相关的具体鉴权Action,详情请参见DLF RAM鉴权Action说明。
数据层面:仅主账号,或被赋予super_administrator或admin角色,或被授予Catalog管理权限的RAM用户,才具备创建Catalog的权限。请参见配置数据权限。
创建Catalog
您可以根据使用场景、数据规模、服务可靠性,以及预算等要求,配置合适的Catalog。
登录数据湖构建控制台。
在Catalog列表页面,单击新建Catalog,配置以下信息。
配置项
说明
Catalog名称
必选,唯一标识,不可重名。
描述
可选,输入描述信息。
存储类型
标准存储。
存储冗余类型
可选以下两种类型:
本地冗余(默认):数据存储在单可用区(AZ)。当该可用区不可用时,会导致相关数据不可访问,推荐使用同城冗余。
同城冗余:同一地域(Region)内多可用区(AZ)冗余机制,当某个可用区(AZ)不可用时,仍能保证数据可用性。
说明Catalog创建后,同城冗佘不可变更为本地冗余。
相比本地冗余,同城冗余能够提供更高的数据可用性,但价格也相对更高。对数据高可用性要求较高的场景,推荐使用同城冗余。
智能存储分层
开启后,系统将根据您配置的生命周期规则,自动对Catalog下所有表进行冷热分层。请根据业务需求填写分层策略和分层规则。
说明如果Catalog级别开启智能分层,那么Table级别的智能存储分层会默认开启(继承自Catalog),并支持在Table级别修改配置。如果在表级别修改规则,则不再展示继承自Catalog。
如果Catalog级别未开启智能分层,也支持在Table级别开启,并支持修改。
分层策略
最后访问时间:根据表/分区数据最后访问时间,进行规则判断。
最后更新时间:按照表/分区数据最后更新时间,进行规则判断。
分层规则
不同存储类型的最低存储时间要求不同。
存储类型
最低存储时间
低频访问存储
30天
归档存储
60天
冷归档存储
180天
您可选择性配置以下分层规则:
转换至低频访问存储
配置天数:自定义,默认30天。
数据最后访问时间超过该天数后,将会自动转为低频存储。低频存储依旧可以被计算引擎访问,但性能会有所下降。
被访问自动转标准存储:如果勾选,在表/分区被访问时,系统会自动将该分区或非分区表转换为标准存储。
说明仅在分层策略选择基于“最后访问时间”时支持该功能。
转换至归档存储
配置天数:自定义,默认60天。
数据最后访问时间超过该天数后,将会自动转为归档存储。归档存储的数据,将无法被计算引擎访问。
被访问自动转标准存储:如果勾选,在表/分区被访问时,系统会自动将该分区或非分区表转换为标准存储。
说明仅在分层策略选择基于“最后访问时间”时支持该功能。
转换至冷归档存储
配置天数:自定义,默认180天。
数据最后访问时间超过该天数后,将会自动转为冷归档存储。归档存储的数据,将无法被计算引擎访问。
勾选服务协议,并单击创建Catalog。
更多关于Catalog的操作,请参见数据目录。
数据入湖
您可以根据数据源和同步类型,选择使用Flink CDC、DataWorks数据集成等工具将原始数据同步到数据湖中。
湖数据分析
您可以根据业务需求,使用EMR Serverless Spark进行批读批写,使用全托管版Flink进行流式读取与写入,使用EMR Serverless Starrocks进行湖分析,挖掘湖中数据价值。