DataWorks开放数据为您提供各维度的表或视图,便于您采集元数据。本文为您介绍当前DataWorks开放数据提供的表和视图列表,及其结构明细。
MetaData元数据
本套元数据表及示例指标统计表由DataWorks基于当前租户的表、任务、实例、工作空间、成员及项目等元数据生成。实际表结构将根据业务发展动态调整,最终以系统界面展示内容为准。
资产表问题明细(asset_table_issues)
分区字段:dt
描述:表的数据治理问题明细
|
字段 |
类型 |
描述 |
|
tenant_id |
string |
dw租户 |
|
meta_entity_id |
string |
对应元数据实体id |
|
uuid |
string |
表唯一键 |
|
meta_entity_type |
string |
对应元数据类型,如:maxcompute-table |
|
entity_type |
string |
实体类型,如:table、view、materialized_view |
|
account_id |
string |
资产所属主账号 |
|
datasource_type |
string |
数据源类型,如:EMR,MC |
|
datasource_id |
string |
引擎名称(MC:projectName,EMR:clusterId,holo:databaseName) |
|
catalog_name |
string |
meta data 为DLF时 为DLF 目录 |
|
database_name |
string |
数据库名称 (EMR dbName) |
|
schema_name |
string |
schema名称 |
|
rule_id |
string |
治理项标识 |
|
rule_name_zh |
string |
治理项中文名称 |
|
rule_name_en |
string |
治理项英文名称 |
|
category |
string |
所属维度 |
|
deduct_score_tenant |
string |
全局扣减分数,保留小数点后4位 |
|
deduct_score_owner |
string |
个人扣减分数,保留小数点后4位 |
|
cost |
string |
浪费的资源 |
|
project_id |
string |
dw项目空间 |
|
dt |
string |
日期分区(逻辑分区字段),格式YYYYMMDD |
资产表指标明细(asset_table_profiles)
分区字段:dt
描述:表的指标明细
|
字段 |
类型 |
描述 |
|
tenant_id |
bigint |
源租户id |
|
meta_entity_id |
string |
对应元数据实体id |
|
meta_entity_type |
string |
对应元数据类型,如:maxcompute-table |
|
entity_type |
string |
实体类型,如:table、view、materialized_view |
|
account_id |
string |
资产所属主账号 |
|
datasource_type |
string |
数据源类型,如:EMR,MC |
|
datasource_id |
string |
引擎名称(MC:projectName,EMR:clusterId,holo:databaseName) |
|
catalog_name |
string |
meta data 为DLF时为DLF 目录 |
|
database_name |
string |
数据库名称 (EMR dbName) |
|
schema_name |
string |
schema名称 |
|
uuid |
string |
表唯一键 |
|
name |
string |
表名称 |
|
owner |
string |
资产负责人 |
|
last_access_timestamp |
bigint |
表最近访问时间 |
|
meta_modified_timestamp |
bigint |
表元数据修改时间戳13位 |
|
data_modified_timestamp |
bigint |
表数据修改时间戳13位 |
|
create_timestamp |
bigint |
表创建时间 |
|
comment |
string |
表注释 |
|
partition_keys |
string |
分区键 |
|
tags |
string |
资产标签 |
|
governance_rule_finding_count |
bigint |
治理项问题个数 |
|
governance_rule_finding_history_count |
string |
资产治理项个数历史 |
|
governance_health_score |
string |
资产治理评分 |
|
governance_health_level |
string |
资产治理评分等级 |
|
is_partitioned |
bigint |
是否是分区表 |
|
content_size |
bigint |
逻辑大小 |
|
record_num |
bigint |
记录行数 |
|
life_cycle |
string |
生命周期 |
|
partition_count |
bigint |
分区个数 |
|
view_count_monthly |
bigint |
近一个月浏览次数 |
|
access_count |
bigint |
访问次数 |
|
upstream_table_count |
bigint |
上游表个数 |
|
upstream_table_detail |
string |
上游表详情 |
|
downstream_table_count |
bigint |
下游表个数 |
|
downstream_table_detail |
string |
下游表详情 |
|
producing_project_ids |
string |
表产出涉及的工作空间列表 |
|
producing_tasks_count |
bigint |
表产出涉及的节点个数 |
|
producing_tasks_detail |
string |
表产出涉及的节点详情 |
|
using_tasks_count |
bigint |
使用表节点个数 |
|
using_tasks_detail |
string |
使用表节点详情 |
|
quality_rule_count |
bigint |
质量规则个数 |
|
quality_monitor_count |
bigint |
质量监控指标个数 |
|
quality_rule_7_days_failed_count |
bigint |
质量规则不通过个数 |
|
quality_monitor_7_days_failed_count |
bigint |
质量监控指标不通过个数 |
|
dt |
string |
日期分区(逻辑分区字段),格式YYYYMMDD |
资产任务问题明细(asset_task_issues)
分区字段:dt
描述:任务的数据治理问题明细
|
字段 |
类型 |
描述 |
|
tenant_id |
string |
DataWorks租户id |
|
node_id |
string |
调度节点id |
|
node_name |
string |
节点名称 |
|
node_type |
string |
任务类型,SQL/SQLCost/LOT/CUPID |
|
node_owner |
string |
负责人baseId |
|
priority |
string |
优先级 |
|
rule_id |
string |
治理项标识 |
|
rule_name_zh |
string |
治理项中文名称 |
|
rule_name_en |
string |
治理项英文名称 |
|
category |
string |
所属治理领域 |
|
deduct_score_tenant |
string |
全局扣减分数,保留小数点后4位 |
|
deduct_score_owner |
string |
个人扣减分数,保留小数点后4位 |
|
cost |
string |
治理收益 |
|
project_id |
string |
DataWorks项目id |
|
dt |
string |
日期分区(逻辑分区字段),格式YYYYMMDD |
资产任务指标明细(asset_task_profiles)
分区字段:dt
描述:任务的指标明细
|
字段 |
类型 |
描述 |
|
tenant_id |
bigint |
源租户id |
|
data_asset_id |
string |
资产在模块下id,对应task.id |
|
name |
string |
资产名称,对应task.name |
|
project_id |
bigint |
所在工作空间 |
|
project_env |
string |
环境,PROD:生产 DEV:开发 |
|
owner |
string |
资产负责人 |
|
create_user |
string |
创建人 |
|
create_time |
bigint |
创建时间 |
|
modify_user |
string |
修改人 |
|
modify_time |
bigint |
修改时间 |
|
trigger_type |
string |
触发方式类型 Scheduler:调度周期触发 Manual:手动触发 |
|
trigger_recurrence_type |
string |
Normal 正常运行,Manual 手动任务,Pause 暂停,Skip 空跑 |
|
trigger_cron |
string |
cron表达式 |
|
type |
bigint |
执行代码类型,请参考 https://help.aliyun.com/zh/dataworks/user-guide/node-development-of-data-studio 中节点编码值 |
|
script_parameters |
string |
参数信息 |
|
priority |
bigint |
任务优先级,最小值 1,最大值 8。取值越大,优先级越高。默认优先级为 1 |
|
trigger_start_time |
bigint |
允许调度的起始日期 |
|
trigger_end_time |
bigint |
允许调度的终止日期 |
|
runtime_resource_group_id |
bigint |
节点所属资源组编号 |
|
runtime_cu |
string |
计算cu |
|
baseline_id |
bigint |
节点所属基线编号 |
|
rerun_times |
bigint |
任务可重跑次数 |
|
rerun_interval |
bigint |
重跑间隔,单位毫秒 |
|
rerun_mode_type |
string |
AllAllowed 失败或成功均可重跑,FailureAllowed 只有失败可重跑,AllDenied 失败或成功都不可重跑 |
|
tags |
string |
资产标签 |
|
tags_count |
bigint |
资产标签个数 |
|
input_table_count |
bigint |
输入表个数 |
|
output_table_count |
bigint |
输出表个数 |
|
input_table_detail |
string |
输入表详情 |
|
output_table_detail |
string |
输出表详情 |
|
upstream_node_count |
bigint |
上游节点个数 |
|
downstream_node_count |
bigint |
下游节点个数 |
|
governance_rule_finding_count |
bigint |
治理项问题个数 |
|
governance_rule_finding_history_count |
string |
资产治理项个数历史 |
|
governance_health_score |
string |
资产评分 |
|
governance_health_level |
string |
资产评分等级 |
|
engine_datasource_id |
string |
计算引擎id |
|
engine_instance_count |
bigint |
计算引擎作业个数 |
|
engine_instance_run_time |
bigint |
计算引擎作业运行时间 |
|
engine_instance_comput_volume_cost |
string |
计算量 |
|
engine_instance_cu_cost |
string |
计算cu |
|
engine_instance_cpu_cost |
string |
cpu消耗 |
|
engine_instance_mem_cost |
string |
内存消耗 |
|
engine_instance_exist_data_skew |
bigint |
数据倾斜 |
|
engine_instance_suggestions |
string |
倾斜建议 |
|
engine_instance_data_skew_ids |
string |
数据倾斜 作业ids |
|
engine_instance_ids |
string |
作业ids |
|
task_instance_wait_time_cost_sum |
bigint |
等待时间消耗总和 |
|
task_instance_wait_time_cost_max |
bigint |
实例等待时间消耗最大值 |
|
task_instance_run_time_cost_sum |
bigint |
运行时间消耗总和 |
|
task_instance_run_time_cost_max |
bigint |
运行时间消耗最大值 |
|
task_instance_7_days_wait_time_cost_max |
bigint |
7天实例等待时间消耗最大值 |
|
task_instance_7_days_run_time_cost_max |
bigint |
7天实例运行时间消耗最大值 |
|
task_instance_count |
bigint |
实例个数 |
|
task_instance_7_days_failed_count |
bigint |
失败实例个数 |
|
task_instance_7_days_failed_day_count |
bigint |
失败天个数 |
|
task_instance_7_days_frezeed_day_count |
bigint |
冻结天个数 |
|
task_instance_7_days_dry_run_day_count |
bigint |
空跑天个数 |
|
quality_monitor_count |
bigint |
数据质量监控指标个数 |
|
quality_monitor_7_days_failed_count |
bigint |
数据质量监控指标失败个数 |
|
di_task_resource_group_id |
string |
节点所属数据集成资源组编号 |
|
di_task_is_public_network |
bigint |
数据集成任务是否公网流量 |
|
di_task_concurrency |
bigint |
并发数 |
|
di_task_total_records |
bigint |
同步数 |
|
di_task_total_bytes |
bigint |
同步数据量 |
|
di_task_source_type |
string |
源端类型 |
|
di_task_target_type |
string |
目标端类型 |
|
di_task_run_time_cost |
bigint |
数据集成任务执行耗时 |
|
di_task_wait_time_cost |
bigint |
数据集成任务等待耗时 |
|
dt |
string |
日期分区(逻辑分区字段),格式YYYYMMDD |
数据目录(catalogs)
|
字段 |
类型 |
描述 |
|
datasource_type |
string |
数据源类型,如dlf,starrocks等。 |
|
datasource_id |
string |
数据源标识,如StarRocks集群ID,DLF所属主账号ID。 |
|
name |
string |
数据目录名称。 |
|
type |
string |
数据目录类型,如Hive,Jdbc等。 |
|
comment |
string |
数据目录注释。 |
|
location |
string |
目录路径。 |
|
properties |
string |
属性及参数(JSON String)。 |
|
owner |
string |
数据目录所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。 |
|
create_timestamp |
bigint |
创建时间戳13位。 |
|
update_timestamp |
bigint |
修改时间戳13位。 |
|
meta_entity_id |
string |
数据目录唯一标识(API访问友好,符合元数据实体ID规范)。 |
|
dt |
string |
日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
字段(columns)
|
字段 |
类型 |
描述 |
|
datasource_type |
string |
数据源类型,如dlf、starrocks等。 |
|
datasource_id |
string |
数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。 |
|
catalog_name |
string |
数据目录名称,数据源类型支持数据目录时有值。 |
|
database_name |
string |
数据库名称。 |
|
schema_name |
string |
模式名称,数据源类型支持Schema时有值。 |
|
table_name |
string |
表名称。 |
|
name |
string |
字段名称。 |
|
type |
string |
字段类型。 |
|
comment |
string |
注释。 |
|
ordinal_position |
bigint |
字段序号(从1开始)。 |
|
is_primary_key |
boolean |
是否为主键。 |
|
is_nullable |
boolean |
是否允许为NULL。 |
|
is_partition_key |
boolean |
是否为分区键。 |
|
properties |
string |
属性及参数(JSON String)。 |
|
business_description |
string |
业务描述。 |
|
meta_entity_id |
string |
字段唯一标识(API访问友好,符合元数据实体ID规范)。 |
|
dt |
string |
日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
数据库(databases)
|
字段 |
类型 |
描述 |
|
datasource_type |
string |
数据源类型,如 |
|
datasource_id |
string |
数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。 |
|
catalog_name |
string |
数据目录名称,数据源类型支持数据目录时有值。 |
|
name |
string |
数据库名称。 |
|
type |
string |
数据库类型。 |
|
comment |
string |
数据库注释。 |
|
location |
string |
数据库路径。 |
|
properties |
string |
属性及参数(JSON String)。 |
|
owner |
string |
数据库所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。 |
|
is_external |
boolean |
是否为外部数据库。 |
|
create_timestamp |
bigint |
创建时间戳13位。 |
|
update_timestamp |
bigint |
修改时间戳13位。 |
|
meta_entity_id |
string |
数据库唯一标识(API访问友好,符合元数据实体ID规范)。 |
|
dt |
string |
日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
Table和Column级别血缘(lineages)
|
字段 |
类型 |
描述 |
|
source_meta_entity_id |
string |
源端唯一标识(API访问友好,符合元数据实体ID规范)。 |
|
source_raw_entity_type |
string |
源端实体类型,所标识的元数据未被纳管时,source_meta_entity_type为空,采用source_raw_entity_type标识。 |
|
source_uuid |
string |
源端唯一标识(页面访问友好)。 |
|
target_meta_entity_id |
string |
目标端唯一标识(API访问友好,符合元数据实体ID规范)。 |
|
target_raw_entity_type |
string |
目标实体类型,所标识的元数据未被纳管时,target_meta_entity_type为空,采用target_raw_entity_type标识。 |
|
target_uuid |
string |
目标端唯一标识(页面访问友好)。 |
|
compute_engine |
string |
计算引擎,如:maxcompute,datax,hologres等。 |
|
transform_type |
string |
引擎中的转换任务类型,如:SQL,DATAX,DATAX_STREAM,EXTERNAL_TABLE_MAPPING,STORAGE_MAPPING,API_MAPPING。 |
|
task_id |
bigint |
DataWorks调度任务ID,参考tasks表,未经DataWorks调度触发的血缘数据,此字段为空。 |
|
task_instance_id |
bigint |
DataWorks调度任务实例ID,参考tasks_instances表,未经DataWorks调度触发的血缘数据,此字段为空。 |
|
lineage_time |
bigint |
血缘发生时间(毫秒级)。 |
|
granularity |
string |
血缘层级,如:TABLE、COLUMN。 |
|
dt |
string |
日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
分区(partitions)
|
字段 |
类型 |
描述 |
|
datasource_type |
string |
数据源类型,如maxcompute,dlf,starrocks等。 |
|
datasource_id |
string |
数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。 |
|
catalog_name |
string |
数据目录名称,数据源类型支持数据目录时有值。 |
|
database_name |
string |
数据库名称。 |
|
schema_name |
string |
模式名称,数据源类型支持Schema时有值。 |
|
table_name |
string |
表名称。 |
|
name |
string |
分区名称(Partition Specification)。 |
|
create_timestamp |
bigint |
创建时间戳13位。 |
|
update_timestamp |
bigint |
修改时间戳13位。 |
|
content_size |
bigint |
分区大小,以字节计。 |
|
properties |
string |
属性及参数(JSON String)。 |
|
dt |
string |
日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
资源组(resource groups)
|
字段 |
类型 |
描述 |
|
resource_group_id |
bigint |
资源组ID。 |
|
resource_group_identifier |
string |
资源组标识。 |
|
resource_group_type |
bigint |
资源组类型(1:调度资源组;2:MaxCompute资源组;4:数据集成资源组)。 |
|
resource_group_mode |
bigint |
资源组模式(1:预付费;2:后付费;3:开发者版本(仅MaxCompute))。 |
|
resource_group_status |
bigint |
资源组状态(0:正常;1:冻结;2:删除;3:创建中;4:创建失败;5:更新中;6:更新失败;7:删除中;8:删除失败)。 |
|
is_exclusive_resource_group |
boolean |
是否为独享资源组。 |
|
dt |
string |
日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
数据模式(schemas)
|
字段 |
类型 |
描述 |
|
datasource_type |
string |
数据源类型,如holodb,maxcompute,postgresql等。 |
|
datasource_id |
string |
数据源标识,如RDS实例ID,MaxCompute所属主账号ID等。 |
|
catalog_name |
string |
数据目录名称,数据源类型支持数据目录时有值。 |
|
database_name |
string |
数据库名称。 |
|
name |
string |
模式名称。 |
|
type |
string |
模式类型。 |
|
comment |
string |
注释。 |
|
properties |
string |
属性及参数(JSON String)。 |
|
owner |
string |
模式所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。 |
|
create_timestamp |
bigint |
创建时间戳13位。 |
|
update_timestamp |
bigint |
修改时间戳13位。 |
|
meta_entity_id |
string |
模式唯一标识(API访问友好,符合元数据实体ID规范)。 |
|
dt |
string |
日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
表(tables)
|
字段 |
类型 |
描述 |
|
datasource_type |
string |
数据源类型,如dlf,starrocks,maxcompute,holodb,mysql等。 |
|
datasource_id |
string |
数据源标识,如StarRocks集群ID,DLF、MaxCompute所属主账号ID,RDS实例ID等。 |
|
catalog_name |
string |
数据目录名称,数据源类型支持数据目录时有值。 |
|
database_name |
string |
数据库名称。 |
|
schema_name |
string |
模式名称,数据源类型支持Schema时有值。 |
|
name |
string |
表名称。 |
|
type |
string |
表类型。 |
|
comment |
string |
注释。 |
|
partition_keys |
string |
分区键,多级分区时,字段采用英文逗号分隔。 |
|
location |
string |
表存储路径。 |
|
properties |
string |
属性及参数(JSON String)视图时为视图定义DDL。 |
|
owner |
string |
表所有者,根据数据源类型不同,其值可能是阿里云账号UID或者数据库系统账号。 |
|
content_size |
bigint |
存储大小,以字节计。 |
|
data_retention |
map<string,string> |
数据保留期/生命周期。不同类型的表其值有差异:对于MaxCompute表,key是lifecycle,value是表的生命周期,如365;对于DLF表,key是renention,value是表的生命周期,如91;对于其他类型,暂未支持。后续若支持,会补充文档说明。 |
|
is_compressed |
boolean |
是否压缩。 |
|
is_temporary |
boolean |
是否临时表。 |
|
entity_type |
string |
实体类型,如:table、view、materialized_view等。 |
|
input_format |
string |
输入格式。 |
|
output_format |
string |
输出格式。 |
|
serde_parameters |
string |
SerDe参数。 |
|
serialization_lib |
string |
序列化library。 |
|
create_timestamp |
bigint |
表创建时间戳13位。 |
|
meta_modified_timestamp |
bigint |
表元数据修改时间戳13位。 |
|
data_modified_timestamp |
bigint |
表数据修改时间戳13位。 |
|
last_access_timestamp |
bigint |
表最后访问时间戳13位。 |
|
business_description |
string |
业务描述/中文名。 |
|
meta_entity_id |
string |
表唯一标识(API访问友好,符合元数据实体ID规范)。 例如:
|
|
uuid |
string |
表UUID,用于关联DataWorks数据地图表详情页面。 |
|
business_tags |
array<string> |
业务用标签,地图页面设置的标签会采用此字段记录。 |
|
wikis |
array<struct<`version`:bigint,`operator`:string,`update_timestamp`:bigint,`content`:string>> |
表使用说明(version:版本号;operator:提交者;update_timestamp:更新时间戳(13位);content:内容)。 |
|
producing_tasks |
array<bigint> |
生产表数据的调度任务ID列表,参考tasks表。 |
|
dt |
string |
日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
任务/工作流运行的实例(task_instances)
|
字段 |
类型 |
描述 |
|
id |
bigint |
任务实例ID。 |
|
node_id |
bigint |
任务ID,参考tasks表。 |
|
node_type |
bigint |
任务类型,请参考节点开发中节点编码值。 |
|
node_name |
string |
任务名称。 |
|
description |
string |
任务描述。 |
|
workflow_id |
bigint |
工作流ID,参考tasks表。 |
|
workflow_name |
string |
工作流名称。 |
|
workflow_instance_id |
bigint |
工作流实例ID。 |
|
workflow_instance_type |
bigint |
工作流实例类型:(0-日常调度;1-手动任务;2-冒烟测试;3-补数据;4-一次性流程;5-手动流程)。 |
|
trigger_type |
string |
触发方式类型(Scheduler/Manual)。 |
|
trigger_recurrence |
string |
运行模式(0-正常;1-手动;2-暂停;3-空跑;4-被引用)。 |
|
timeout |
bigint |
任务执行超时时间(小时)。 |
|
rerun_mode |
string |
重跑配置(0-失败可重跑;1-失败或成功均可重跑;2-不可重跑)。 |
|
run_number |
bigint |
运行次数。 |
|
period_number |
bigint |
周期序号。 |
|
baseline_id |
bigint |
基线ID。 |
|
priority |
bigint |
任务优先级(1-8)。 |
|
script_parameters |
string |
运行脚本参数列表。 |
|
runtime_resource_group_id |
bigint |
任务运行的资源组ID。 |
|
runtime_resource_group_identifier |
string |
任务运行的资源组标识名称。 |
|
runtime_image |
string |
运行镜像ID。 |
|
runtime_cu |
string |
运行时CU消耗。 |
|
runtime_process_id |
string |
运行时进程ID。 |
|
runtime_gateway |
string |
运行时网关。 |
|
datasource_name |
string |
数据源名称。 |
|
inputs_variables |
array<struct<`name`:string,`type`:string,`value`:string>> |
输入变量列表。 |
|
outputs |
array<struct<`output`:string,`type`:string>> |
输出标识符列表。 |
|
outputs_variables |
array<struct<`name`:string,`type`:string,`value`:string>> |
输出变量列表。 |
|
tags |
array<struct<`key`:string,`value`:string>> |
任务标签列表。 |
|
status |
bigint |
任务状态(1-未运行;2-等待时间;3-等待资源;4-运行中;5-失败;6-成功;7-校验中;8-条件校验;9-等待触发)。 |
|
trigger_time |
string |
触发时间。 |
|
bizdate |
string |
业务日期。 |
|
started_time |
string |
开始时间。 |
|
finished_time |
string |
结束时间。 |
|
project_id |
bigint |
项目ID,参考workspaces表workspace_id字段。 |
|
project_env |
string |
环境类型(PROD/DEV)。 |
|
owner |
string |
责任人账号ID,参考users表。 |
|
create_time |
string |
创建时间。 |
|
modify_time |
string |
修改时间。 |
|
create_user |
string |
创建人账号ID,参考users表。 |
|
modify_user |
string |
修改人账号ID,参考users表。 |
|
waiting_resource_time |
string |
等待资源时间。 |
|
waiting_trigger_time |
string |
等待触发时间。 |
|
dt |
string |
日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
任务/工作流定义(tasks)
|
字段 |
类型 |
描述 |
|
id |
bigint |
任务ID。 |
|
name |
string |
任务名称。 |
|
description |
string |
任务描述信息。 |
|
type |
bigint |
任务类型,请参考节点开发中的节点编码值。 |
|
workflow_id |
bigint |
工作流ID。 |
|
instance_mode |
string |
实例生成模式。
|
|
baseline_id |
bigint |
基线ID。 |
|
priority |
bigint |
任务优先级,最小值1,最大值8。取值越大,优先级越高。默认优先级为1。 |
|
timeout |
bigint |
任务执行超时时间,单位小时。 |
|
rerun_mode |
bigint |
任务是否允许重跑配置(0:只有失败可重跑;1:失败或成功均可重跑;2:失败或成功都不可重跑)。 |
|
rerun_times |
bigint |
重试次数,当任务设置为可重跑时生效。 |
|
rerun_interval |
bigint |
重试时间间隔,单位秒。 |
|
script_parameters |
string |
运行脚本参数列表。 |
|
trigger_type |
string |
触发方式类型(Scheduler:调度周期触发;Manual:手动触发)。 |
|
trigger_recurrence |
bigint |
触发时的运行模式(0:正常运行;1:手动任务;2:暂停;3:空跑;4:被引用任务)。 |
|
trigger_cron |
string |
Cron表达式,type=Scheduler时生效。 |
|
trigger_start_time |
string |
周期触发生效时间,type=Scheduler时生效。 |
|
trigger_end_time |
string |
周期触发失效时间,type=Scheduler时生效。 |
|
runtime_resource_group_id |
bigint |
任务运行的资源组ID。 |
|
runtime_image |
string |
任务运行配置的镜像ID。 |
|
runtime_cu |
string |
任务运行配置CU消耗。 |
|
datasource_name |
string |
数据源名称。 |
|
inputs_variables |
array<struct<`name`:string,`type`:string,`value`:string>> |
输入变量列表。 |
|
outputs |
array<struct<`output`:string,`type`:string>> |
任务输出标识符列表。 |
|
outputs_variables |
array<struct<`name`:string,`type`:string,`value`:string>> |
输出变量列表。 |
|
dependencies |
array<struct<`type`:string,`upstream_output`:string,`upstream_node_id`:bigint>> |
依赖信息列表。 |
|
related_workflow_id |
bigint |
关联工作流ID。 |
|
tags |
array<struct<`key`:string,`value`:string>> |
任务标签列表。 |
|
project_id |
bigint |
项目ID,参考workspaces表workspace_id字段。 |
|
project_env |
string |
环境类型(PROD:生产;DEV:开发)。 |
|
owner |
string |
任务的责任人的账号ID,参考users表。 |
|
create_time |
string |
创建时间。 |
|
modify_time |
string |
修改时间。 |
|
create_user |
string |
创建用户的账号ID,参考users表。 |
|
modify_user |
string |
修改用户的账号ID,参考users表。 |
|
dt |
string |
日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
用户(users)
|
字段 |
类型 |
描述 |
|
user_id |
string |
用户标识。 |
|
user_nick |
string |
账号别名(显示名称)。 |
|
dt |
string |
日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
工作空间成员(workspace members)
|
字段 |
类型 |
描述 |
|
workspace_id |
bigint |
工作空间ID,参考workspaces表。 |
|
user_id |
string |
用户标识,参考users表。 |
|
user_status |
bigint |
用户状态(0:正常;1:禁用;2:删除)。 |
|
gmt_create_ts |
bigint |
创建时间(13位数字时间戳)。 |
|
gmt_modified_ts |
bigint |
修改时间(13位数字时间戳)。 |
|
dt |
string |
日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
工作空间(workspaces)
|
字段 |
类型 |
描述 |
|
workspace_id |
bigint |
工作空间ID。 |
|
workspace_name |
string |
工作空间名称。 |
|
workspace_identifier |
string |
工作空间标识符。 |
|
workspace_description |
string |
工作空间描述。 |
|
workspace_owner |
string |
工作空间Owner标识,参考users表。 |
|
workspace_status |
bigint |
工作空间状态(0:正常;1:已删除;2:初始化;3:初始化失败;4:手动禁用;5:删除中;6:删除失败;7:欠费冻结)。 |
|
dt |
string |
日期分区(逻辑分区字段),格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
数据质量规则实例(quality_rule_results)
分区字段:dt
描述:数据质量规则实例
|
字段 |
类型 |
描述 |
|
id |
bigint |
主键ID |
|
scan_run_id |
bigint |
质量监控实例ID |
|
rule_id |
bigint |
规则ID |
|
rule_name |
string |
规则名称 |
|
status |
string |
规则校验结果,Pass/Error/Warn/Fail/Running |
|
severity |
string |
规则强弱,High/Normal |
|
create_time |
bigint |
创建时间 |
|
modify_time |
bigint |
最近一次修改时间 |
|
spec |
string |
规则实例Spec |
|
tags |
array<string> |
规则实例标签 |
|
tenant_id |
bigint |
Dataworks租户ID |
|
project_id |
bigint |
Dataworks项目空间ID |
|
meta_entity_id |
string |
地图表实体唯一标识 |
|
dt |
string |
日期分区,格式YYYYMMDD,取值范围:[TODAY-D, TODAY-1D] |
数据质量规则指标明细(quality_rules)
分区字段:dt
描述:数据质量规则指标明细
|
字段 |
类型 |
描述 |
|
id |
bigint |
主键ID |
|
scan_id |
bigint |
质量监控ID |
|
rule_name |
string |
规则名称 |
|
enabled |
boolean |
规则是否启用 |
|
severity |
string |
规则业务严重等级,枚举值:High/Normal |
|
create_time |
bigint |
创建时间 |
|
modify_time |
bigint |
最近一次修改时间 |
|
spec |
string |
规则Spec |
|
tags |
array<string> |
规则标签 |
|
tenant_id |
bigint |
Dataworks租户ID |
|
project_id |
bigint |
Dataworks项目空间ID |
|
meta_entity_id |
string |
地图实体唯一标识 |
|
pass_count |
int |
规则校验通过次数 |
|
warn_count |
int |
规则校验触发橙色阈值次数 |
|
error_count |
int |
规则校验触发红色阈值次数 |
|
fail_count |
int |
规则校验失败次数 |
|
dt |
string |
日期分区,格式YYYYMMDD,取值范围:[TODAY-D, TODAY-1D] |
数据质量监控任务实例(quality_scan_runs)
分区字段:dt
描述:数据质量监控任务实例
|
字段 |
类型 |
描述 |
|
id |
bigint |
主键ID |
|
scan_id |
bigint |
质量监控ID |
|
name |
string |
监控名称 |
|
status |
string |
监控实例状态,Pass/Warn/Error/Fail/Running |
|
post_action_type |
string |
监控校验后处置动作,枚举值:Alert/BlockTaskInstance |
|
data_filter |
string |
采样时实际使用的数据范围 |
|
trigger_time |
bigint |
任务使用的调度定时时间 |
|
trigger_type |
string |
数据质量监控触发方式, ByManual/BySchedule/ByQualityNode |
|
create_time |
bigint |
创建时间 |
|
modify_time |
bigint |
最近一次更新时间 |
|
datasource_id |
bigint |
表所属数据源ID |
|
datasource_type |
string |
数据源类型 |
|
computing_resource_id |
bigint |
计算引擎ID |
|
compute_resource_option |
string |
数据质量监控运行所用计算资源 |
|
spec |
string |
质量监控Spec |
|
tenant_id |
bigint |
Dataworks租户ID |
|
project_id |
bigint |
Dataworks项目空间ID |
|
owner |
string |
质量监控责任人 |
|
task_id |
bigint |
调度任务ID |
|
task_instance_id |
bigint |
调度任务实例ID |
|
meta_entity_id |
string |
地图实体唯一标识 |
|
table_name |
string |
表名称 |
|
catalog_name |
string |
表所属数据目录名称 |
|
schema_name |
string |
表所属模式名称 |
|
database_name |
string |
表所属数据库名称 |
|
cluster_id |
string |
表所属集群ID |
|
dt |
string |
日期分区,格式YYYYMMDD,取值范围:[TODAY-D, TODAY-1D] |
数据质量监控任务指标明细(quality_scans)
分区字段:dt
描述:数据质量监控任务指标明细
|
字段 |
类型 |
描述 |
|
id |
bigint |
主键ID |
|
name |
string |
监控名称 |
|
data_filter_type |
string |
数据范围类型, ByPartition/ByWhere |
|
data_filter |
string |
数据范围表达式 |
|
trigger_type |
string |
数据质量监控触发方式, ByManual/BySchedule/ByQualityNode |
|
create_time |
bigint |
创建时间 |
|
modify_time |
bigint |
最近一次更新时间 |
|
computing_resource_id |
bigint |
计算引擎ID |
|
compute_resource_option |
string |
数据质量监控运行所用计算资源 |
|
spec |
string |
数据质量监控Spec |
|
related_tasks |
array<bigint> |
监控关联的调度任务 |
|
tenant_id |
bigint |
Dataworks租户ID |
|
project_id |
bigint |
Dataworks项目空间ID |
|
owner |
string |
质量监控责任人 |
|
datasource_id |
string |
表所属数据源ID |
|
datasource_type |
string |
数据源类型 |
|
meta_entity_id |
string |
地图实体唯一标识 |
|
table_name |
string |
表名称 |
|
catalog_name |
string |
表所属数据目录名称 |
|
schema_name |
string |
表所属模式名称 |
|
database_name |
string |
表所属数据库名称 |
|
cluster_id |
string |
表所属集群ID |
|
related_scheduler_task_count |
int |
关联调度任务数 |
|
rule_count |
int |
关联规则数 |
|
high_severity_rule_count |
int |
关联强规则数 |
|
normal_severity_rule_count |
int |
关联弱规则数 |
|
enabled_rule_count |
int |
开启规则数 |
|
enabled_high_severity_rule_count |
int |
开启强规则数 |
|
enabled_normal_severity_rule_count |
int |
开启弱规则数 |
|
rule_instance_count |
int |
今日规则实例数 |
|
high_severity_rule_instance_count |
int |
今日强规则实例数 |
|
normal_severity_rule_instance_count |
int |
今日弱规则实例数 |
|
high_severity_rule_instance_pass_count |
int |
今日校验通过强规则实例数 |
|
high_severity_rule_instance_warn_count |
int |
今日橙色异常强规则实例数 |
|
high_severity_rule_instance_error_count |
int |
今日红色异常强规则实例数 |
|
high_severity_rule_instance_fail_count |
int |
今日校验失败强规则实例数 |
|
normal_severity_rule_instance_pass_count |
int |
今日校验通过弱规则实例数 |
|
normal_severity_rule_instance_warn_count |
int |
今日橙色异常弱规则实例数 |
|
normal_severity_rule_instance_error_count |
int |
今日红色异常弱规则实例数 |
|
normal_severity_rule_instance_fail_count |
int |
今日校验失败弱规则实例数 |
|
block_task_instance_count |
int |
今日阻塞调度任务数 |
|
alert_rule_count |
int |
配置告警订阅数 |
|
sms_alert_rule_count |
int |
配置短信告警订阅数 |
|
mail_alert_rule_count |
int |
配置邮件告警订阅数 |
|
phone_alert_rule_count |
int |
配置电话告警订阅数 |
|
ding_alert_rule_count |
int |
配置钉钉告警订阅数 |
|
feishu_alert_rule_count |
int |
配置飞书告警订阅数 |
|
weixin_alert_rule_count |
int |
配置微信告警订阅数 |
|
webhook_alert_rule_count |
int |
配置自定义webhook告警订阅数 |
|
alert_times |
int |
今日触发告警次数 |
|
sms_alert_times |
int |
今日触发短信告警次数 |
|
mail_alert_times |
int |
今日触发邮件告警次数 |
|
phone_alert_times |
int |
今日触发电话告警次数 |
|
ding_alert_times |
int |
今日触发钉钉告警次数 |
|
feishu_alert_times |
int |
今日触发飞书告警次数 |
|
weixin_alert_times |
int |
今日触发微信告警次数 |
|
webhook_alert_times |
int |
今日触发自定义webhook告警次数 |
|
dt |
string |
日期分区,格式YYYYMMDD,取值范围:[TODAY-D, TODAY-1D] |
数据质量表指标明细(table_quality_summary)
分区字段:dt
描述:数据质量表指标明细
|
字段 |
类型 |
描述 |
|
meta_entity_id |
string |
地图表实体唯一标识 |
|
project_id |
bigint |
Dataworks项目空间ID |
|
table_name |
string |
表名称 |
|
schema_name |
string |
表所属模式名称 |
|
database_name |
string |
表所属数据库名称 |
|
catalog_name |
string |
表所属数据目录名称 |
|
datasource_id |
bigint |
表所属数据源ID,未配置数据质量时为NULL |
|
tenant_id |
bigint |
Dataworks租户ID |
|
owner |
string |
表负责人 |
|
scan_count |
int |
已配置质量监控数 |
|
scheduler_related_scan_count |
int |
关联调度的质量监控数 |
|
scan_run_count |
int |
今日质量监控任务实例数 |
|
alert_scan_run_count |
int |
今日触发告警的质量监控任务实例数 |
|
block_task_instance_scan_run_count |
int |
今日触发阻塞调度任务的质量监控任务实例数 |
|
rule_count |
int |
配置规则数 |
|
enabled_rule_count |
int |
启用规则数 |
|
high_severity_rule_count |
int |
配置强规则数 |
|
normal_severity_rule_count |
int |
配置弱规则数 |
|
rule_instance_count |
int |
今日规则实例数 |
|
high_severity_rule_instance_count |
int |
今日强规则实例数 |
|
normal_severity_rule_instance_count |
int |
今日弱规则实例数 |
|
high_severity_rule_instance_pass_count |
int |
今日强规则校验通过次数 |
|
high_severity_rule_instance_warn_count |
int |
今日强规则校验橙色异常次数 |
|
high_severity_rule_instance_error_count |
int |
今日强规则校验红色异常次数 |
|
high_severity_rule_instance_fail_count |
int |
今日强规则校验失败次数 |
|
normal_severity_rule_instance_pass_count |
int |
今日弱规则校验通过次数 |
|
normal_severity_rule_instance_warn_count |
int |
今日弱规则校验橙色异常次数 |
|
normal_severity_rule_instance_error_count |
int |
今日弱规则校验红色异常次数 |
|
normal_severity_rule_instance_fail_count |
int |
今日弱规则校验失败次数 |
|
dt |
string |
日期分区,格式YYYYMMDD,取值范围:[TODAY-31D, TODAY-1D] |
Examples元数据
Table指标明细(table_metrics_detail)
|
字段 |
类型 |
描述 |
|
datasource_type |
string |
数据源类型。 |
|
datasource_id |
string |
数据源标识。 |
|
catalog_name |
string |
数据目录名称。 |
|
database_name |
string |
数据库名称。 |
|
schema_name |
string |
数据模式名称。 |
|
table_name |
string |
表名称。 |
|
table_uuid |
string |
表标识,用于跳转到详情。 |
|
meta_entity_id |
string |
表标识,可读性好。 |
|
content_size |
bigint |
采集到的存储量。不支持采集存储量时,字段值为NULL。 |
|
daily_rate_cs |
decimal(16,6) |
存储量日环比变化率。 |
|
avg_content_size_7d |
bigint |
存储量的7天平均值。 |
|
daily_rate_acs_7d |
decimal(16,6) |
七天平均存储量日环比变化率。 |
|
latest_data_update_time_31d |
bigint |
31天数据范围内作为血缘下游对应实例的结束时间;数据更新时间最大值data_modified_timestamp。31天数据范围内无更新时,对应字段值为NULL。 |
|
latest_data_update_task_id |
bigint |
31天内,最近更新表的调度任务ID。 |
|
latest_data_update_instance_id |
bigint |
31天内,最近更新表的调度任务实例ID。 |
|
latest_data_update_time_by_task |
bigint |
31天内,最近更新表的**调度任务**实例的结束时间。 |
|
writing_task_ids |
array<bigint> |
当前业务日期,写入表的调度任务ID(无重复ID)。 |
|
writing_task_ids_31d |
array<bigint> |
31天数据范围内,写入表的调度任务ID(无重复ID)。 |
|
latest_data_access_time_31d |
bigint |
31天数据范围内作为血缘上游对应实例的结束时间;最后访问时间最大值last_access_timestamp。31天数据范围内无访问时,对应字段值为NULL。 |
|
latest_data_access_task_id |
bigint |
31天内,最近读取表的调度任务ID。 |
|
latest_data_access_instance_id |
bigint |
31天内,最近读取表的调度任务实例ID。 |
|
latest_data_access_time_by_task |
bigint |
31天数据范围内作为血缘上游对应实例的结束时间。 |
|
reading_task_ids |
array<string> |
读取表的调度任务ID。 |
|
reading_task_ids_31d |
array<string> |
31天数据范围内,读取表的调度任务ID(无重复ID)。 |
|
direct_downstream_tables |
array<string> |
直接下游表ID(uuid)。 |
|
direct_upstream_tables |
array<string> |
直接上游表ID(uuid)。 |
|
dt |
string |
日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
Table指标汇总(table_metrics_summary)
|
字段 |
类型 |
描述 |
|
table_count |
bigint |
表数量。 |
|
daily_rate_tc |
decimal(16,6) |
表数量日环比变化率。 |
|
avg_table_count_7d |
bigint |
表数量的7日平均值。 |
|
daily_rate_atc_7d |
decimal(16,6) |
表数量7日平均值日环比变化率。 |
|
content_size |
bigint |
采集到的存储量。不支持采集存储量时,字段值为NULL。 |
|
daily_rate_cs |
decimal(16,6) |
存储量日环比变化率。 |
|
avg_content_size_7d |
bigint |
存储量的7天平均值。 |
|
daily_rate_acs_7d |
decimal(16,6) |
七天平均存储量日环比变化率。 |
|
updated_table_count |
bigint |
31天内更新的表数量。 |
|
daily_rate_utc |
decimal(16,6) |
31天内更新的表数量日环比变化率。 |
|
avg_updated_table_count_7d |
bigint |
31天内更新的表数量的7日平均值。 |
|
daily_rate_autc_7d |
decimal(16,6) |
31天内更新的表数量7日平均值日环比变化率。 |
|
accessed_table_count |
bigint |
31天内读取的表数量。 |
|
daily_rate_atc |
decimal(16,6) |
31天内读取的表数量日环比变化率。 |
|
avg_accessed_table_count_7d |
bigint |
31天内读取的表数量的7日平均值。 |
|
daily_rate_aatc_7d |
decimal(16,6) |
31天内读取的表数量7日平均值日环比变化率。 |
|
dt |
string |
日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
Task指标明细(task_metrics_detail)
|
字段 |
类型 |
描述 |
|
task_id |
bigint |
任务标识。 |
|
workflow_id |
bigint |
工作流标识。 |
|
node_type |
bigint |
任务类型。 |
|
project_id |
bigint |
工作空间标识。 |
|
week_number |
bigint |
业务日期所在年的第几周。 |
|
task_owner |
string |
负责人ID。 |
|
compute_resource_type |
string |
计算资源类型。 |
|
compute_resource_id |
string |
计算资源标识:MC项目名称,EMR集群ID,Hologres实例ID等。 |
|
datasource_name |
string |
数据源名称。 |
|
inst_success_count |
bigint |
运行成功的实例数量。 |
|
inst_failed_count |
bigint |
运行失败的实例数量。 |
|
inst_running_count |
bigint |
运行中的实例数量。 |
|
inst_abnormal_count |
bigint |
运行异常的实例数量。 |
|
inst_not_started_count |
bigint |
未运行的实例数量。 |
|
inst_runtime_cu |
double |
实例运行时CU消耗。 |
|
task_avg_cu_31d |
double |
任务日均CU消耗(31日内)。 |
|
dt |
string |
日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |
Task指标汇总(task_metrics_summary)
|
字段 |
类型 |
描述 |
|
node_type |
bigint |
节点类型。 |
|
inst_status |
string |
实例状态。 |
|
inst_count |
bigint |
实例数量。 |
|
avg_inst_count_7d |
double |
7日实例平均数量。 |
|
granularity |
string |
统计粒度,日DAILY,周WEEKLY。 |
|
dt |
string |
日期分区,格式YYYYMMDD,取值范围:[TODAY-31D,TODAY-1D]。 |