开放数据表结构详情

DataWorks开放数据为您提供各维度的表或视图,便于您采集元数据。本文为您介绍当前DataWorks开放数据提供的表和视图列表,及其结构明细。

MetaData元数据

本套元数据表及示例指标统计表由DataWorks基于当前租户的表、任务、实例、工作空间、成员及项目等元数据生成。实际表结构将根据业务发展动态调整,最终以系统界面展示内容为准。

数据目录(catalogs)

字段

类型

描述

datasource_type

string

数据源类型,如dlf,starrocks等。

datasource_id

string

数据源标识,如StarRocks集群ID,DLF所属主账号ID。

name

string

数据目录名称。

type

string

数据目录类型,如Hive,Jdbc等。

comment

string

数据目录注释。

location

string

目录路径。

properties

string

属性及参数(JSON String)。

owner

string

数据目录所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。

create_timestamp

bigint

创建时间戳13位。

update_timestamp

bigint

修改时间戳13位。

meta_entity_id

string

数据目录唯一标识(API访问友好,符合元数据实体ID规范)。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

数据库(databases)

字段

类型

描述

datasource_type

string

数据源类型,如dlfstarrocksmaxcomputeholodbmysql等。

datasource_id

string

数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。

catalog_name

string

数据目录名称,数据源类型支持数据目录时有值。

name

string

数据库名称。

type

string

数据库类型。

comment

string

数据库注释。

location

string

数据库路径。

properties

string

属性及参数(JSON String)。

owner

string

数据库所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。

is_external

boolean

是否为外部数据库。

create_timestamp

bigint

创建时间戳13位。

update_timestamp

bigint

修改时间戳13位。

meta_entity_id

string

数据库唯一标识(API访问友好,符合元数据实体ID规范)。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

数据模式(schemas)

字段

类型

描述

datasource_type

string

数据源类型,如holodb,maxcompute,postgresql等。

datasource_id

string

数据源标识,如RDS实例ID,MaxCompute所属主账号ID等。

catalog_name

string

数据目录名称,数据源类型支持数据目录时有值。

database_name

string

数据库名称。

name

string

模式名称。

type

string

模式类型。

comment

string

注释。

properties

string

属性及参数(JSON String)。

owner

string

模式所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。

create_timestamp

bigint

创建时间戳13位。

update_timestamp

bigint

修改时间戳13位。

meta_entity_id

string

模式唯一标识(API访问友好,符合元数据实体ID规范)。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

表(tables)

字段

类型

描述

datasource_type

string

数据源类型,如dlf,starrocks,maxcompute,holodb,mysql等。

datasource_id

string

数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。

catalog_name

string

数据目录名称,数据源类型支持数据目录时有值。

database_name

string

数据库名称。

schema_name

string

模式名称,数据源类型支持Schema时有值。

name

string

表名称。

type

string

表类型。

comment

string

注释。

partition_keys

string

分区键,多级分区时,字段采用英文逗号分隔。

location

string

表存储路径。

properties

string

属性及参数(JSON String)视图时为视图定义DDL。

owner

string

表所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。

content_size

bigint

存储大小,以字节计。

data_retention

map<string,string>

数据保留期/生命周期。不同类型的表其值有差异:对于maxcompute表,keylifecycle,value是表的生命周期,如365;对于dlf表,keyrenention,value是表的生命周期,如91;对于其他类型,暂未支持。后续若支持,会补充文档说明。

is_compressed

boolean

是否压缩。

is_temporary

boolean

是否临时表。

entity_type

string

实体类型,如:table、view、materialized_view等。

input_format

string

输入格式。

output_format

string

输出格式。

serde_parameters

string

SerDe参数。

serialization_lib

string

序列化library。

create_timestamp

bigint

表创建时间戳13位。

meta_modified_timestamp

bigint

表元数据修改时间戳13位。

data_modified_timestamp

bigint

表数据修改时间戳13位。

last_access_timestamp

bigint

表最后访问时间戳13位。

business_description

string

业务描述/中文名。

meta_entity_id

string

表唯一标识(API访问友好,符合元数据实体ID规范)。

例如:

  • maxcompute-table:主账号ID::project_name:schema_name:table_name。

  • holo-table:Hologres实例ID::sample_database:public_schema:table_name。

  • starrocks-table:集群实例ID:default_catalog:sample_database::sample_table。

uuid

string

UUID,用于关联DataWorks数据地图表详情页面。

business_tags

array<string>

业务用标签,地图页面设置的标签会采用此字段记录。

wikis

array<struct<`version`:bigint,`operator`:string,`update_timestamp`:bigint,`content`:string>>

表使用说明(version:版本号;operator:提交者;update_timestamp:更新时间戳(13位);content:内容)。

producing_tasks

array<bigint>

生产表数据的调度任务ID列表,参考tasks表。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

字段(columns)

字段

类型

描述

datasource_type

string

数据源类型,如dlf、starrocks等。

datasource_id

string

数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。

catalog_name

string

数据目录名称,数据源类型支持数据目录时有值。

database_name

string

数据库名称。

schema_name

string

模式名称,数据源类型支持Schema时有值。

table_name

string

表名称。

name

string

字段名称。

type

string

字段类型。

comment

string

注释。

ordinal_position

bigint

字段序号(从1开始)。

is_primary_key

boolean

是否为主键。

is_nullable

boolean

是否允许为NULL。

is_partition_key

boolean

是否为分区键。

properties

string

属性及参数(JSON String)。

business_description

string

业务描述。

meta_entity_id

string

字段唯一标识(API访问友好,符合元数据实体ID规范)。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

分区(partitions)

字段

类型

描述

datasource_type

string

数据源类型,如maxcompute,dlf,starrocks等。

datasource_id

string

数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。

catalog_name

string

数据目录名称,数据源类型支持数据目录时有值。

database_name

string

数据库名称。

schema_name

string

模式名称,数据源类型支持Schema时有值。

table_name

string

表名称。

name

string

分区名称(Partition Specification)。

create_timestamp

bigint

创建时间戳13位。

update_timestamp

bigint

修改时间戳13位。

content_size

bigint

分区大小,以字节计。

properties

string

属性及参数(JSON String)。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

TableColumn级别血缘(lineages

字段

类型

描述

source_meta_entity_id

string

源端唯一标识(API访问友好,符合元数据实体ID规范)。

source_raw_entity_type

string

源端实体类型,所标识的元数据未被纳管时,source_meta_entity_type为空,采用source_raw_entity_type标识。

source_uuid

string

源端唯一标识(页面访问友好)。

target_meta_entity_id

string

目标端唯一标识(API访问友好,符合元数据实体ID规范)。

target_raw_entity_type

string

目标实体类型,所标识的元数据未被纳管时,target_meta_entity_type为空,采用target_raw_entity_type标识。

target_uuid

string

目标端唯一标识(页面访问友好)。

compute_engine

string

计算引擎,如:maxcompute,datax,hologres等。

transform_type

string

引擎中的转换任务类型,如:SQL,DATAX,DATAX_STREAM,EXTERNAL_TABLE_MAPPING,STORAGE_MAPPING,API_MAPPING。

task_id

bigint

DataWorks调度任务ID,参考tasks表,未经DataWorks调度触发的血缘数据,此字段为空。

task_instance_id

bigint

DataWorks调度任务实例ID,参考tasks_instances表,未经DataWorks调度触发的血缘数据,此字段为空。

lineage_time

bigint

血缘发生时间(毫秒级)。

granularity

string

血缘层级,如:TABLE、COLUMN。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

任务/工作流定义(tasks

字段

类型

描述

id

bigint

任务ID。

name

string

任务名称。

description

string

任务描述信息。

type

bigint

任务类型,请参考节点开发中的节点编码值。

workflow_id

bigint

工作流ID。

instance_mode

string

实例生成模式。

  • T+1(第二天生成)

  • Immediately(立即生成)

baseline_id

bigint

基线ID。

priority

bigint

任务优先级,最小值1,最大值8。取值越大,优先级越高。默认优先级为1。

timeout

bigint

任务执行超时时间,单位小时。

rerun_mode

bigint

任务是否允许重跑配置(0:只有失败可重跑;1:失败或成功均可重跑;2:失败或成功都不可重跑)。

rerun_times

bigint

重试次数,当任务设置为可重跑时生效。

rerun_interval

bigint

重试时间间隔,单位秒。

script_parameters

string

运行脚本参数列表。

trigger_type

string

触发方式类型(Scheduler:调度周期触发;Manual:手动触发)。

trigger_recurrence

bigint

触发时的运行模式(0:正常运行;1:手动任务;2:暂停;3:空跑;4:被引用任务)。

trigger_cron

string

Cron表达式,type=Scheduler时生效。

trigger_start_time

string

周期触发生效时间,type=Scheduler时生效。

trigger_end_time

string

周期触发失效时间,type=Scheduler时生效。

runtime_resource_group_id

bigint

任务运行的资源组ID。

runtime_image

string

任务运行配置的镜像ID。

runtime_cu

string

任务运行配置CU消耗。

datasource_name

string

数据源名称。

inputs_variables

array<struct<`name`:string,`type`:string,`value`:string>>

输入变量列表。

outputs

array<struct<`output`:string,`type`:string>>

任务输出标识符列表。

outputs_variables

array<struct<`name`:string,`type`:string,`value`:string>>

输出变量列表。

dependencies

array<struct<`type`:string,`upstream_output`:string,`upstream_node_id`:bigint>>

依赖信息列表。

related_workflow_id

bigint

关联工作流ID。

tags

array<struct<`key`:string,`value`:string>>

任务标签列表。

project_id

bigint

项目ID,参考workspacesworkspace_id字段。

project_env

string

环境类型(PROD:生产;DEV:开发)。

owner

string

任务的责任人的账号ID,参考users表。

create_time

string

创建时间。

modify_time

string

修改时间。

create_user

string

创建用户的账号ID,参考users表。

modify_user

string

修改用户的账号ID,参考users表。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

任务/工作流运行的实例(task_instances

字段

类型

描述

id

bigint

任务实例ID。

node_id

bigint

任务ID,参考tasks表。

node_type

bigint

任务类型,请参考节点开发中节点编码值。

node_name

string

任务名称。

description

string

任务描述。

workflow_id

bigint

工作流ID,参考tasks表。

workflow_name

string

工作流名称。

workflow_instance_id

bigint

工作流实例ID。

workflow_instance_type

bigint

工作流实例类型:(0-日常调度;1-手动任务;2-冒烟测试;3-补数据;4-一次性流程;5-手动流程)。

trigger_type

string

触发方式类型(Scheduler/Manual)。

trigger_recurrence

string

运行模式(0-正常;1-手动;2-暂停;3-空跑;4-被引用)。

timeout

bigint

任务执行超时时间(小时)。

rerun_mode

string

重跑配置(0-失败可重跑;1-失败或成功均可;2-不可重跑)。

run_number

bigint

运行次数。

period_number

bigint

周期序号。

baseline_id

bigint

基线ID。

priority

bigint

任务优先级(1-8)。

script_parameters

string

运行脚本参数列表。

runtime_resource_group_id

bigint

任务运行的资源组ID。

runtime_resource_group_identifier

string

任务运行的资源组标识名称。

runtime_image

string

运行镜像ID。

runtime_cu

string

运行时CU消耗。

runtime_process_id

string

运行时进程ID。

runtime_gateway

string

运行时网关。

datasource_name

string

数据源名称。

inputs_variables

array<struct<`name`:string,`type`:string,`value`:string>>

输入变量列表。

outputs

array<struct<`output`:string,`type`:string>>

输出标识符列表。

outputs_variables

array<struct<`name`:string,`type`:string,`value`:string>>

输出变量列表。

tags

array<struct<`key`:string,`value`:string>>

任务标签列表。

status

bigint

任务状态(1-未运行;2-等待时间;3-等待资源;4-运行中;5-失败;6-成功;7-校验中;8-条件校验;9-等待触发)。

trigger_time

string

触发时间。

bizdate

string

业务日期。

started_time

string

开始时间。

finished_time

string

结束时间。

project_id

bigint

项目ID,参考workspacesworkspace_id字段。

project_env

string

环境类型(PROD/DEV)。

owner

string

责任人账号ID,参考users表。

create_time

string

创建时间。

modify_time

string

修改时间。

create_user

string

创建人账号ID,参考users表。

modify_user

string

修改人账号ID,参考users表。

waiting_resource_time

string

等待资源时间。

waiting_trigger_time

string

等待触发时间。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

用户(users)

字段

类型

描述

user_id

string

用户标识。

user_nick

string

账号别名(显示名称)。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

工作空间(workspaces)

字段

类型

描述

workspace_id

bigint

工作空间ID。

workspace_name

string

工作空间名称。

workspace_identifier

string

工作空间标识符。

workspace_description

string

工作空间描述。

workspace_owner

string

工作空间Owner标识,参考users表。

workspace_status

bigint

工作空间状态(0:正常;1:已删除;2:初始化;3:初始化失败;4:手动禁用;5:删除中;6:删除失败;7:欠费冻结)。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

工作空间成员(workspace members)

字段

类型

描述

workspace_id

bigint

工作空间ID,参考workspaces表。

user_id

string

用户标识,参考users表。

user_status

bigint

用户状态(0:正常;1:禁用;2:删除)。

gmt_create_ts

bigint

创建时间(13位数字时间戳)。

gmt_modified_ts

bigint

修改时间(13位数字时间戳)。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

资源组(resource groups)

字段

类型

描述

resource_group_id

bigint

资源组ID。

resource_group_identifier

string

资源组标识。

resource_group_type

bigint

资源组类型(1:调度资源组;2:MaxCompute资源组;4:数据集成资源组)。

resource_group_mode

bigint

资源组模式(1:预付费;2:后付费;3:开发者版本(仅MaxCompute))。

resource_group_status

bigint

资源组状态(0:正常;1:冻结;2:删除;3:创建中;4:创建失败;5:更新中;6:更新失败;7:删除中;8:删除失败)。

is_exclusive_resource_group

boolean

是否为独享资源组。

dt

string

日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

Examples元数据

Table指标明细(table_metrics_detail)

字段

类型

描述

datasource_type

string

数据源类型。

datasource_id

string

数据源标识。

catalog_name

string

数据目录名称。

database_name

string

数据库名称。

schema_name

string

数据模式名称。

table_name

string

表名称。

table_uuid

string

表标识,用于跳转到详情。

meta_entity_id

string

表标识,可读性好。

content_size

bigint

采集到的存储量。不支持采集存储量时,字段值为NULL。

daily_rate_cs

decimal(16,6)

存储量日环比变化率。

avg_content_size_7d

bigint

存储量的7天平均值。

daily_rate_acs_7d

decimal(16,6)

七天平均存储量日环比变化率。

latest_data_update_time_31d

bigint

31天数据范围内作为血缘下游对应实例的结束时间;数据更新时间最大值data_modified_timestamp。31天数据范围内无更新时,对应字段值为NULL。

latest_data_update_task_id

bigint

31天内,最近更新表的调度任务ID。

latest_data_update_instance_id

bigint

31天内,最近更新表的调度任务实例ID。

latest_data_update_time_by_task

bigint

31天内,最近更新表的**调度任务**实例的结束时间。

writing_task_ids

array<bigint>

当前业务日期,写入表的调度任务ID(无重复ID)。

writing_task_ids_31d

array<bigint>

31天数据范围内,写入表的调度任务ID(无重复ID)。

latest_data_access_time_31d

bigint

31天数据范围内作为血缘上游对应实例的结束时间;最后访问时间最大值last_access_timestamp。31天数据范围内无访问时,对应字段值为NULL。

latest_data_access_task_id

bigint

31天内,最近读取表的调度任务ID。

latest_data_access_instance_id

bigint

31天内,最近读取表的调度任务实例ID。

latest_data_access_time_by_task

bigint

31天数据范围内作为血缘上游对应实例的结束时间。

reading_task_ids

array<string>

读取表的调度任务ID。

reading_task_ids_31d

array<string>

31天数据范围内,读取表的调度任务ID(无重复ID)。

direct_downstream_tables

array<string>

直接下游表ID(uuid)。

direct_upstream_tables

array<string>

直接上游表ID(uuid)。

dt

string

日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

Table指标汇总(table_metrics_summary)

字段

类型

描述

table_count

bigint

表数量。

daily_rate_tc

decimal(16,6)

表数量日环比变化率。

avg_table_count_7d

bigint

表数量的7日平均值。

daily_rate_atc_7d

decimal(16,6)

表数量7日平均值日环比变化率。

content_size

bigint

采集到的存储量。不支持采集存储量时,字段值为NULL。

daily_rate_cs

decimal(16,6)

存储量日环比变化率。

avg_content_size_7d

bigint

存储量的7天平均值。

daily_rate_acs_7d

decimal(16,6)

七天平均存储量日环比变化率。

updated_table_count

bigint

31天内更新的表数量。

daily_rate_utc

decimal(16,6)

31天内更新的表数量日环比变化率。

avg_updated_table_count_7d

bigint

31天内更新的表数量的7日平均值。

daily_rate_autc_7d

decimal(16,6)

31天内更新的表数量7日平均值日环比变化率。

accessed_table_count

bigint

31天内读取的表数量。

daily_rate_atc

decimal(16,6)

31天内读取的表数量日环比变化率。

avg_accessed_table_count_7d

bigint

31天内读取的表数量的7日平均值。

daily_rate_aatc_7d

decimal(16,6)

31天内读取的表数量7日平均值日环比变化率。

dt

string

日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

Task指标明细(task_metrics_detail)

字段

类型

描述

task_id

bigint

任务标识。

workflow_id

bigint

工作流标识。

node_type

bigint

任务类型。

project_id

bigint

工作空间标识。

week_number

bigint

业务日期所在年的第几周。

task_owner

string

负责人ID。

compute_resource_type

string

计算资源类型。

compute_resource_id

string

计算资源标识:MC项目名称,EMR集群ID,Hologres实例ID等。

datasource_name

string

数据源名称。

inst_success_count

bigint

运行成功的实例数量。

inst_failed_count

bigint

运行失败的实例数量。

inst_running_count

bigint

运行中的实例数量。

inst_abnormal_count

bigint

运行异常的实例数量。

inst_not_started_count

bigint

未运行的实例数量。

inst_runtime_cu

double

实例运行时CU消耗。

task_avg_cu_31d

double

任务日均CU消耗(31日内)。

dt

string

日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。

Task指标汇总(task_metrics_summary)

字段

类型

描述

node_type

bigint

节点类型。

inst_status

string

实例状态。

inst_count

bigint

实例数量。

avg_inst_count_7d

double

7日实例平均数量。

granularity

string

统计粒度,日DAILY,周WEEKLY。

dt

string

日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。