文件目录(Beta)

DLF文件目录是指向OSS数据文件目录的一种映射,通过转化为对象表(Object Table)来索引对象存储中的非结构化数据的元数据,以便对这些数据进行分析和管理。本文为您介绍DLF中文件目录的基础使用。

场景介绍

  • 内容归档与管理:在媒体领域,通过DLF文件目录中的元数据(如视频分辨率、时长、制作公司等),媒体公司可以轻松分类和检索大批量视频或音频文件。元数据还能帮助快速定位合适的内容进行编辑、分发或版权管理。

  • 产品图片与描述管理:在电商平台,用户定义元数据可以标记商品图片和描述文件,例如商品分类、品牌、颜色和价格范围等。这些元数据有助于快速搜索相关资源,并提高内容管理效率。

  • 实时数据流与文档管理:在物流领域,OSS中存储的货运单、合同等文件可通过元数据(如时间戳、发货地点、运输状态)关联到具体的运输任务。IoT设备上传的实时物流数据也可通过元数据实现追踪与分析。

  • 用户生成内容 (UGC):在游戏行业,游戏开发商可以为玩家上传的内容(如地图设计、角色模型)添加元数据,例如创作者、创建日期、游戏版本等。这使得内容发现和社区互动更加高效。

  • 合规与审计:在金融领域,金融机构利用元数据(如文件生成时间、用户ID、数据敏感性等级等)确保合规性与透明性。这对于审计、风险管理和法规遵从非常重要。

使用限制

仅适用于Paimon类型的数据目录。

前提条件

新建文件目录

  1. 登录数据湖构建控制台

  2. 在左侧菜单栏,单击数据目录

  3. 选择Paimon类型的数据目录,单击Catalog名称,进入Catalog详情页。

  4. 单击新建 > 文件目录,配置以下信息,单击确定

    配置项

    说明

    文件目录名称

    自定义文件目录名称。

    数据来源

    输入OSS路径作为数据来源。格式为:oss://<your_BucketName>/<path>。其中:

    • your_BucketName:表示您创建的OSS Bucket名称。您可以在OSS管理控制台上查看。

    • path:表示您存放数据文件所在的文件夹路径,而不要指定具体的数据文件。

    计算资源

    选择计算资源。如果当前没有可用的计算资源,可单击添加计算资源。具体操作,请参见添加计算资源

    目录更新频率

    可选择按小时或按天来更新目录。适用于对更新要求不高的场景。

查看文件目录

  1. 新建文件目录后,单击文件目录页签,单击文件目录名称,可查看文件目录的概览信息。

    如:文件目录名称、文件路径、对应Object Table、数据来源、目录更新频率、创建时间、最后更新时间、计算资源以及更新状态等信息。重点参数说明如下。

    参数

    说明

    文件路径

    文件目录在数据湖中的存储位置,用于管理文件目录的元数据信息。

    对应Object Table

    创建文件目录时,Paimon会自动生成一个对象表(Object Table),将OSS对象的标签以键值对的形式写入元数据,用于存储和管理该目录下的所有文件及其相关信息。

    更新状态

    有以下四种更新状态:

    • 更新中:当前有更新任务正在执行。

    • 更新完成:本次更新任务已成功完成。

    • 更新失败:更新任务失败。

    • 尚未更新:此目录从未进行过更新。

  2. 单击image图标,可修改目录更新频率

  3. 单击手动触发更新,可对文件目录进行手动更新。

    更新状态更新完成时,则更新成功。

使用文件目录

关于DLF文件目录的使用,请参见使用DLF文件目录访问OSS数据

对象表(Object Table)介绍

Object Table用于定义对象存储目录下非结构化数据对象的元数据索引,以提高数据管理和访问效率。

Paimon Object Table的表结构如下。

字段名称

类型

是否可为空

描述

path

STRING

NOT_NULL

文件的路径

parent_path

STRING

NOT_NULL

文件的父级路径

name

STRING

NOT_NULL

文件的名字

length

BIGINT

NOT_NULL

文件的字节大小

generation

INT

NOT_NULL

文件的生成版本

content_type

STRING

NOT_NULL

文件的媒体类型

storage_class

STRING

NOT_NULL

文件的存储类型

mtime

TIMESTAMP

NOT_NULL

文件的更改时间

atime

TIMESTAMP

NOT_NULL

文件的访问时间

md5_hash

STRING

NOT_NULL

文件内容的哈希

owner

STRING

NOT_NULL

文件的归属者

metadata_mtime

TIMESTAMP

NOT_NULL

元数据更新时间

metadata

MAP<STRING, STRING>

NOT_NULL

文件元数据集合