DataWorks开放数据为您提供各维度的表或视图,便于您采集元数据。本文为您介绍当前DataWorks开放数据提供的表和视图列表,及其结构明细。
MetaData元数据
本套元数据表及示例指标统计表由DataWorks基于当前租户的表、任务、实例、工作空间、成员及项目等元数据生成。实际表结构将根据业务发展动态调整,最终以系统界面展示内容为准。
数据目录(catalogs)
字段 | 类型 | 描述 |
datasource_type | string | 数据源类型,如dlf,starrocks等。 |
datasource_id | string | 数据源标识,如StarRocks集群ID,DLF所属主账号ID。 |
name | string | 数据目录名称。 |
type | string | 数据目录类型,如Hive,Jdbc等。 |
comment | string | 数据目录注释。 |
location | string | 目录路径。 |
properties | string | 属性及参数(JSON String)。 |
owner | string | 数据目录所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。 |
create_timestamp | bigint | 创建时间戳13位。 |
update_timestamp | bigint | 修改时间戳13位。 |
meta_entity_id | string | 数据目录唯一标识(API访问友好,符合元数据实体ID规范)。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
数据库(databases)
字段 | 类型 | 描述 |
datasource_type | string | 数据源类型,如 |
datasource_id | string | 数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。 |
catalog_name | string | 数据目录名称,数据源类型支持数据目录时有值。 |
name | string | 数据库名称。 |
type | string | 数据库类型。 |
comment | string | 数据库注释。 |
location | string | 数据库路径。 |
properties | string | 属性及参数(JSON String)。 |
owner | string | 数据库所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。 |
is_external | boolean | 是否为外部数据库。 |
create_timestamp | bigint | 创建时间戳13位。 |
update_timestamp | bigint | 修改时间戳13位。 |
meta_entity_id | string | 数据库唯一标识(API访问友好,符合元数据实体ID规范)。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
数据模式(schemas)
字段 | 类型 | 描述 |
datasource_type | string | 数据源类型,如holodb,maxcompute,postgresql等。 |
datasource_id | string | 数据源标识,如RDS实例ID,MaxCompute所属主账号ID等。 |
catalog_name | string | 数据目录名称,数据源类型支持数据目录时有值。 |
database_name | string | 数据库名称。 |
name | string | 模式名称。 |
type | string | 模式类型。 |
comment | string | 注释。 |
properties | string | 属性及参数(JSON String)。 |
owner | string | 模式所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。 |
create_timestamp | bigint | 创建时间戳13位。 |
update_timestamp | bigint | 修改时间戳13位。 |
meta_entity_id | string | 模式唯一标识(API访问友好,符合元数据实体ID规范)。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
表(tables)
字段 | 类型 | 描述 |
datasource_type | string | 数据源类型,如dlf,starrocks,maxcompute,holodb,mysql等。 |
datasource_id | string | 数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。 |
catalog_name | string | 数据目录名称,数据源类型支持数据目录时有值。 |
database_name | string | 数据库名称。 |
schema_name | string | 模式名称,数据源类型支持Schema时有值。 |
name | string | 表名称。 |
type | string | 表类型。 |
comment | string | 注释。 |
partition_keys | string | 分区键,多级分区时,字段采用英文逗号分隔。 |
location | string | 表存储路径。 |
properties | string | 属性及参数(JSON String)视图时为视图定义DDL。 |
owner | string | 表所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。 |
content_size | bigint | 存储大小,以字节计。 |
data_retention | map<string,string> | 数据保留期/生命周期。不同类型的表其值有差异:对于maxcompute表,key是lifecycle,value是表的生命周期,如365;对于dlf表,key是renention,value是表的生命周期,如91;对于其他类型,暂未支持。后续若支持,会补充文档说明。 |
is_compressed | boolean | 是否压缩。 |
is_temporary | boolean | 是否临时表。 |
entity_type | string | 实体类型,如:table、view、materialized_view等。 |
input_format | string | 输入格式。 |
output_format | string | 输出格式。 |
serde_parameters | string | SerDe参数。 |
serialization_lib | string | 序列化library。 |
create_timestamp | bigint | 表创建时间戳13位。 |
meta_modified_timestamp | bigint | 表元数据修改时间戳13位。 |
data_modified_timestamp | bigint | 表数据修改时间戳13位。 |
last_access_timestamp | bigint | 表最后访问时间戳13位。 |
business_description | string | 业务描述/中文名。 |
meta_entity_id | string | 表唯一标识(API访问友好,符合元数据实体ID规范)。 例如:
|
uuid | string | 表UUID,用于关联DataWorks数据地图表详情页面。 |
business_tags | array<string> | 业务用标签,地图页面设置的标签会采用此字段记录。 |
wikis | array<struct<`version`:bigint,`operator`:string,`update_timestamp`:bigint,`content`:string>> | 表使用说明(version:版本号;operator:提交者;update_timestamp:更新时间戳(13位);content:内容)。 |
producing_tasks | array<bigint> | 生产表数据的调度任务ID列表,参考tasks表。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
字段(columns)
字段 | 类型 | 描述 |
datasource_type | string | 数据源类型,如dlf、starrocks等。 |
datasource_id | string | 数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。 |
catalog_name | string | 数据目录名称,数据源类型支持数据目录时有值。 |
database_name | string | 数据库名称。 |
schema_name | string | 模式名称,数据源类型支持Schema时有值。 |
table_name | string | 表名称。 |
name | string | 字段名称。 |
type | string | 字段类型。 |
comment | string | 注释。 |
ordinal_position | bigint | 字段序号(从1开始)。 |
is_primary_key | boolean | 是否为主键。 |
is_nullable | boolean | 是否允许为NULL。 |
is_partition_key | boolean | 是否为分区键。 |
properties | string | 属性及参数(JSON String)。 |
business_description | string | 业务描述。 |
meta_entity_id | string | 字段唯一标识(API访问友好,符合元数据实体ID规范)。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
分区(partitions)
字段 | 类型 | 描述 |
datasource_type | string | 数据源类型,如maxcompute,dlf,starrocks等。 |
datasource_id | string | 数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。 |
catalog_name | string | 数据目录名称,数据源类型支持数据目录时有值。 |
database_name | string | 数据库名称。 |
schema_name | string | 模式名称,数据源类型支持Schema时有值。 |
table_name | string | 表名称。 |
name | string | 分区名称(Partition Specification)。 |
create_timestamp | bigint | 创建时间戳13位。 |
update_timestamp | bigint | 修改时间戳13位。 |
content_size | bigint | 分区大小,以字节计。 |
properties | string | 属性及参数(JSON String)。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
Table和Column级别血缘(lineages)
字段 | 类型 | 描述 |
source_meta_entity_id | string | 源端唯一标识(API访问友好,符合元数据实体ID规范)。 |
source_raw_entity_type | string | 源端实体类型,所标识的元数据未被纳管时,source_meta_entity_type为空,采用source_raw_entity_type标识。 |
source_uuid | string | 源端唯一标识(页面访问友好)。 |
target_meta_entity_id | string | 目标端唯一标识(API访问友好,符合元数据实体ID规范)。 |
target_raw_entity_type | string | 目标实体类型,所标识的元数据未被纳管时,target_meta_entity_type为空,采用target_raw_entity_type标识。 |
target_uuid | string | 目标端唯一标识(页面访问友好)。 |
compute_engine | string | 计算引擎,如:maxcompute,datax,hologres等。 |
transform_type | string | 引擎中的转换任务类型,如:SQL,DATAX,DATAX_STREAM,EXTERNAL_TABLE_MAPPING,STORAGE_MAPPING,API_MAPPING。 |
task_id | bigint | DataWorks调度任务ID,参考tasks表,未经DataWorks调度触发的血缘数据,此字段为空。 |
task_instance_id | bigint | DataWorks调度任务实例ID,参考tasks_instances表,未经DataWorks调度触发的血缘数据,此字段为空。 |
lineage_time | bigint | 血缘发生时间(毫秒级)。 |
granularity | string | 血缘层级,如:TABLE、COLUMN。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
任务/工作流定义(tasks)
字段 | 类型 | 描述 |
id | bigint | 任务ID。 |
name | string | 任务名称。 |
description | string | 任务描述信息。 |
type | bigint | 任务类型,请参考节点开发中的节点编码值。 |
workflow_id | bigint | 工作流ID。 |
instance_mode | string | 实例生成模式。
|
baseline_id | bigint | 基线ID。 |
priority | bigint | 任务优先级,最小值1,最大值8。取值越大,优先级越高。默认优先级为1。 |
timeout | bigint | 任务执行超时时间,单位小时。 |
rerun_mode | bigint | 任务是否允许重跑配置(0:只有失败可重跑;1:失败或成功均可重跑;2:失败或成功都不可重跑)。 |
rerun_times | bigint | 重试次数,当任务设置为可重跑时生效。 |
rerun_interval | bigint | 重试时间间隔,单位秒。 |
script_parameters | string | 运行脚本参数列表。 |
trigger_type | string | 触发方式类型(Scheduler:调度周期触发;Manual:手动触发)。 |
trigger_recurrence | bigint | 触发时的运行模式(0:正常运行;1:手动任务;2:暂停;3:空跑;4:被引用任务)。 |
trigger_cron | string | Cron表达式,type=Scheduler时生效。 |
trigger_start_time | string | 周期触发生效时间,type=Scheduler时生效。 |
trigger_end_time | string | 周期触发失效时间,type=Scheduler时生效。 |
runtime_resource_group_id | bigint | 任务运行的资源组ID。 |
runtime_image | string | 任务运行配置的镜像ID。 |
runtime_cu | string | 任务运行配置CU消耗。 |
datasource_name | string | 数据源名称。 |
inputs_variables | array<struct<`name`:string,`type`:string,`value`:string>> | 输入变量列表。 |
outputs | array<struct<`output`:string,`type`:string>> | 任务输出标识符列表。 |
outputs_variables | array<struct<`name`:string,`type`:string,`value`:string>> | 输出变量列表。 |
dependencies | array<struct<`type`:string,`upstream_output`:string,`upstream_node_id`:bigint>> | 依赖信息列表。 |
related_workflow_id | bigint | 关联工作流ID。 |
tags | array<struct<`key`:string,`value`:string>> | 任务标签列表。 |
project_id | bigint | 项目ID,参考workspaces表workspace_id字段。 |
project_env | string | 环境类型(PROD:生产;DEV:开发)。 |
owner | string | 任务的责任人的账号ID,参考users表。 |
create_time | string | 创建时间。 |
modify_time | string | 修改时间。 |
create_user | string | 创建用户的账号ID,参考users表。 |
modify_user | string | 修改用户的账号ID,参考users表。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
任务/工作流运行的实例(task_instances)
字段 | 类型 | 描述 |
id | bigint | 任务实例ID。 |
node_id | bigint | 任务ID,参考tasks表。 |
node_type | bigint | 任务类型,请参考节点开发中节点编码值。 |
node_name | string | 任务名称。 |
description | string | 任务描述。 |
workflow_id | bigint | 工作流ID,参考tasks表。 |
workflow_name | string | 工作流名称。 |
workflow_instance_id | bigint | 工作流实例ID。 |
workflow_instance_type | bigint | 工作流实例类型:(0-日常调度;1-手动任务;2-冒烟测试;3-补数据;4-一次性流程;5-手动流程)。 |
trigger_type | string | 触发方式类型(Scheduler/Manual)。 |
trigger_recurrence | string | 运行模式(0-正常;1-手动;2-暂停;3-空跑;4-被引用)。 |
timeout | bigint | 任务执行超时时间(小时)。 |
rerun_mode | string | 重跑配置(0-失败可重跑;1-失败或成功均可;2-不可重跑)。 |
run_number | bigint | 运行次数。 |
period_number | bigint | 周期序号。 |
baseline_id | bigint | 基线ID。 |
priority | bigint | 任务优先级(1-8)。 |
script_parameters | string | 运行脚本参数列表。 |
runtime_resource_group_id | bigint | 任务运行的资源组ID。 |
runtime_resource_group_identifier | string | 任务运行的资源组标识名称。 |
runtime_image | string | 运行镜像ID。 |
runtime_cu | string | 运行时CU消耗。 |
runtime_process_id | string | 运行时进程ID。 |
runtime_gateway | string | 运行时网关。 |
datasource_name | string | 数据源名称。 |
inputs_variables | array<struct<`name`:string,`type`:string,`value`:string>> | 输入变量列表。 |
outputs | array<struct<`output`:string,`type`:string>> | 输出标识符列表。 |
outputs_variables | array<struct<`name`:string,`type`:string,`value`:string>> | 输出变量列表。 |
tags | array<struct<`key`:string,`value`:string>> | 任务标签列表。 |
status | bigint | 任务状态(1-未运行;2-等待时间;3-等待资源;4-运行中;5-失败;6-成功;7-校验中;8-条件校验;9-等待触发)。 |
trigger_time | string | 触发时间。 |
bizdate | string | 业务日期。 |
started_time | string | 开始时间。 |
finished_time | string | 结束时间。 |
project_id | bigint | 项目ID,参考workspaces表workspace_id字段。 |
project_env | string | 环境类型(PROD/DEV)。 |
owner | string | 责任人账号ID,参考users表。 |
create_time | string | 创建时间。 |
modify_time | string | 修改时间。 |
create_user | string | 创建人账号ID,参考users表。 |
modify_user | string | 修改人账号ID,参考users表。 |
waiting_resource_time | string | 等待资源时间。 |
waiting_trigger_time | string | 等待触发时间。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
用户(users)
字段 | 类型 | 描述 |
user_id | string | 用户标识。 |
user_nick | string | 账号别名(显示名称)。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
工作空间(workspaces)
字段 | 类型 | 描述 |
workspace_id | bigint | 工作空间ID。 |
workspace_name | string | 工作空间名称。 |
workspace_identifier | string | 工作空间标识符。 |
workspace_description | string | 工作空间描述。 |
workspace_owner | string | 工作空间Owner标识,参考users表。 |
workspace_status | bigint | 工作空间状态(0:正常;1:已删除;2:初始化;3:初始化失败;4:手动禁用;5:删除中;6:删除失败;7:欠费冻结)。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
工作空间成员(workspace members)
字段 | 类型 | 描述 |
workspace_id | bigint | 工作空间ID,参考workspaces表。 |
user_id | string | 用户标识,参考users表。 |
user_status | bigint | 用户状态(0:正常;1:禁用;2:删除)。 |
gmt_create_ts | bigint | 创建时间(13位数字时间戳)。 |
gmt_modified_ts | bigint | 修改时间(13位数字时间戳)。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
资源组(resource groups)
字段 | 类型 | 描述 |
resource_group_id | bigint | 资源组ID。 |
resource_group_identifier | string | 资源组标识。 |
resource_group_type | bigint | 资源组类型(1:调度资源组;2:MaxCompute资源组;4:数据集成资源组)。 |
resource_group_mode | bigint | 资源组模式(1:预付费;2:后付费;3:开发者版本(仅MaxCompute))。 |
resource_group_status | bigint | 资源组状态(0:正常;1:冻结;2:删除;3:创建中;4:创建失败;5:更新中;6:更新失败;7:删除中;8:删除失败)。 |
is_exclusive_resource_group | boolean | 是否为独享资源组。 |
dt | string | 日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
Examples元数据
Table指标明细(table_metrics_detail)
字段 | 类型 | 描述 |
datasource_type | string | 数据源类型。 |
datasource_id | string | 数据源标识。 |
catalog_name | string | 数据目录名称。 |
database_name | string | 数据库名称。 |
schema_name | string | 数据模式名称。 |
table_name | string | 表名称。 |
table_uuid | string | 表标识,用于跳转到详情。 |
meta_entity_id | string | 表标识,可读性好。 |
content_size | bigint | 采集到的存储量。不支持采集存储量时,字段值为NULL。 |
daily_rate_cs | decimal(16,6) | 存储量日环比变化率。 |
avg_content_size_7d | bigint | 存储量的7天平均值。 |
daily_rate_acs_7d | decimal(16,6) | 七天平均存储量日环比变化率。 |
latest_data_update_time_31d | bigint | 31天数据范围内作为血缘下游对应实例的结束时间;数据更新时间最大值data_modified_timestamp。31天数据范围内无更新时,对应字段值为NULL。 |
latest_data_update_task_id | bigint | 31天内,最近更新表的调度任务ID。 |
latest_data_update_instance_id | bigint | 31天内,最近更新表的调度任务实例ID。 |
latest_data_update_time_by_task | bigint | 31天内,最近更新表的**调度任务**实例的结束时间。 |
writing_task_ids | array<bigint> | 当前业务日期,写入表的调度任务ID(无重复ID)。 |
writing_task_ids_31d | array<bigint> | 31天数据范围内,写入表的调度任务ID(无重复ID)。 |
latest_data_access_time_31d | bigint | 31天数据范围内作为血缘上游对应实例的结束时间;最后访问时间最大值last_access_timestamp。31天数据范围内无访问时,对应字段值为NULL。 |
latest_data_access_task_id | bigint | 31天内,最近读取表的调度任务ID。 |
latest_data_access_instance_id | bigint | 31天内,最近读取表的调度任务实例ID。 |
latest_data_access_time_by_task | bigint | 31天数据范围内作为血缘上游对应实例的结束时间。 |
reading_task_ids | array<string> | 读取表的调度任务ID。 |
reading_task_ids_31d | array<string> | 31天数据范围内,读取表的调度任务ID(无重复ID)。 |
direct_downstream_tables | array<string> | 直接下游表ID(uuid)。 |
direct_upstream_tables | array<string> | 直接上游表ID(uuid)。 |
dt | string | 日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
Table指标汇总(table_metrics_summary)
字段 | 类型 | 描述 |
table_count | bigint | 表数量。 |
daily_rate_tc | decimal(16,6) | 表数量日环比变化率。 |
avg_table_count_7d | bigint | 表数量的7日平均值。 |
daily_rate_atc_7d | decimal(16,6) | 表数量7日平均值日环比变化率。 |
content_size | bigint | 采集到的存储量。不支持采集存储量时,字段值为NULL。 |
daily_rate_cs | decimal(16,6) | 存储量日环比变化率。 |
avg_content_size_7d | bigint | 存储量的7天平均值。 |
daily_rate_acs_7d | decimal(16,6) | 七天平均存储量日环比变化率。 |
updated_table_count | bigint | 31天内更新的表数量。 |
daily_rate_utc | decimal(16,6) | 31天内更新的表数量日环比变化率。 |
avg_updated_table_count_7d | bigint | 31天内更新的表数量的7日平均值。 |
daily_rate_autc_7d | decimal(16,6) | 31天内更新的表数量7日平均值日环比变化率。 |
accessed_table_count | bigint | 31天内读取的表数量。 |
daily_rate_atc | decimal(16,6) | 31天内读取的表数量日环比变化率。 |
avg_accessed_table_count_7d | bigint | 31天内读取的表数量的7日平均值。 |
daily_rate_aatc_7d | decimal(16,6) | 31天内读取的表数量7日平均值日环比变化率。 |
dt | string | 日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
Task指标明细(task_metrics_detail)
字段 | 类型 | 描述 |
task_id | bigint | 任务标识。 |
workflow_id | bigint | 工作流标识。 |
node_type | bigint | 任务类型。 |
project_id | bigint | 工作空间标识。 |
week_number | bigint | 业务日期所在年的第几周。 |
task_owner | string | 负责人ID。 |
compute_resource_type | string | 计算资源类型。 |
compute_resource_id | string | 计算资源标识:MC项目名称,EMR集群ID,Hologres实例ID等。 |
datasource_name | string | 数据源名称。 |
inst_success_count | bigint | 运行成功的实例数量。 |
inst_failed_count | bigint | 运行失败的实例数量。 |
inst_running_count | bigint | 运行中的实例数量。 |
inst_abnormal_count | bigint | 运行异常的实例数量。 |
inst_not_started_count | bigint | 未运行的实例数量。 |
inst_runtime_cu | double | 实例运行时CU消耗。 |
task_avg_cu_31d | double | 任务日均CU消耗(31日内)。 |
dt | string | 日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
Task指标汇总(task_metrics_summary)
字段 | 类型 | 描述 |
node_type | bigint | 节点类型。 |
inst_status | string | 实例状态。 |
inst_count | bigint | 实例数量。 |
avg_inst_count_7d | double | 7日实例平均数量。 |
granularity | string | 统计粒度,日DAILY,周WEEKLY。 |
dt | string | 日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |