DLF文件目录是指向OSS数据文件目录的一种映射,通过转化为对象表(Object Table)来索引对象存储中的非结构化数据的元数据,以便对这些数据进行分析和管理。本文为您介绍DLF中文件目录的基础使用。
场景介绍
内容归档与管理:在媒体领域,通过DLF文件目录中的元数据(如视频分辨率、时长、制作公司等),媒体公司可以轻松分类和检索大批量视频或音频文件。元数据还能帮助快速定位合适的内容进行编辑、分发或版权管理。
产品图片与描述管理:在电商平台,用户定义元数据可以标记商品图片和描述文件,例如商品分类、品牌、颜色和价格范围等。这些元数据有助于快速搜索相关资源,并提高内容管理效率。
实时数据流与文档管理:在物流领域,OSS中存储的货运单、合同等文件可通过元数据(如时间戳、发货地点、运输状态)关联到具体的运输任务。IoT设备上传的实时物流数据也可通过元数据实现追踪与分析。
用户生成内容 (UGC):在游戏行业,游戏开发商可以为玩家上传的内容(如地图设计、角色模型)添加元数据,例如创作者、创建日期、游戏版本等。这使得内容发现和社区互动更加高效。
合规与审计:在金融领域,金融机构利用元数据(如文件生成时间、用户ID、数据敏感性等级等)确保合规性与透明性。这对于审计、风险管理和法规遵从非常重要。
使用限制
仅适用于Paimon类型的数据目录。
前提条件
已创建Flink全托管工作空间,引擎版本须为VVR 8.0.9及以上,详情请参见开通实时计算Flink版。
新建文件目录
登录数据湖构建控制台。
在左侧菜单栏,单击数据目录。
选择Paimon类型的数据目录,单击Catalog名称,进入Catalog详情页。
单击
,配置以下信息,单击确定。配置项
说明
文件目录名称
自定义文件目录名称。
数据来源
输入OSS路径作为数据来源。格式为:
oss://<your_BucketName>/<path>
。其中:your_BucketName
:表示您创建的OSS Bucket名称。您可以在OSS管理控制台上查看。path
:表示您存放数据文件所在的文件夹路径,而不要指定具体的数据文件。
计算资源
选择计算资源。如果当前没有可用的计算资源,可单击添加计算资源。具体操作,请参见添加计算资源。
目录更新频率
可选择按小时或按天来更新目录。适用于对更新要求不高的场景。
查看文件目录
新建文件目录后,单击文件目录页签,单击文件目录名称,可查看文件目录的概览信息。
如:文件目录名称、文件路径、对应Object Table、数据来源、目录更新频率、创建时间、最后更新时间、计算资源以及更新状态等信息。重点参数说明如下。
参数
说明
文件路径
文件目录在数据湖中的存储位置,用于管理文件目录的元数据信息。
对应Object Table
创建文件目录时,Paimon会自动生成一个对象表(Object Table),将OSS对象的标签以键值对的形式写入元数据,用于存储和管理该目录下的所有文件及其相关信息。
关于Object Table,请参见对象表(Object Table)介绍。
查看表信息,请参见查看数据表。
更新状态
有以下四种更新状态:
更新中:当前有更新任务正在执行。
更新完成:本次更新任务已成功完成。
更新失败:更新任务失败。
尚未更新:此目录从未进行过更新。
单击图标,可修改目录更新频率。
单击手动触发更新,可对文件目录进行手动更新。
待更新状态为更新完成时,则更新成功。
使用文件目录
关于DLF文件目录的使用,请参见使用DLF文件目录访问OSS数据。
对象表(Object Table)介绍
Object Table用于定义对象存储目录下非结构化数据对象的元数据索引,以提高数据管理和访问效率。
Paimon Object Table的表结构如下。
字段名称 | 类型 | 是否可为空 | 描述 |
| STRING | NOT_NULL | 文件的路径 |
| STRING | NOT_NULL | 文件的父级路径 |
| STRING | NOT_NULL | 文件的名字 |
| BIGINT | NOT_NULL | 文件的字节大小 |
| INT | NOT_NULL | 文件的生成版本 |
| STRING | NOT_NULL | 文件的媒体类型 |
| STRING | NOT_NULL | 文件的存储类型 |
| TIMESTAMP | NOT_NULL | 文件的更改时间 |
| TIMESTAMP | NOT_NULL | 文件的访问时间 |
| STRING | NOT_NULL | 文件内容的哈希 |
| STRING | NOT_NULL | 文件的归属者 |
| TIMESTAMP | NOT_NULL | 元数据更新时间 |
| MAP<STRING, STRING> | NOT_NULL | 文件元数据集合 |