DataWorks开放数据为您提供各维度的表或视图,便于您采集元数据。本文为您介绍当前DataWorks开放数据提供的表和视图列表,及其结构明细。
开放数据所提供的元数据,如无特殊说明,元数据仅包含MaxCompute引擎下的元数据。
META元数据
RPT指标
RAW明细
调度元数据
租户元数据
Table核心指标rpt_v_meta_ind_table_core
名称  | 类型  | 描述  | 
tenant_id  | bigint  | DataWorks租户ID  | 
project_id  | bigint  | DataWorks项目(工作空间)ID  | 
catalog_name  | string  | 所属catalog。MaxCompute项目对应值为odps。  | 
database_name  | string  | 数据库或ODPS项目名称  | 
table_name  | string  | 表名称  | 
table_uuid  | string  | 表唯一标识  | 
owner_yun_acct  | string  | 表Owner云账号  | 
dim_life_cycle  | bigint  | 生命周期,单位为天。 
  | 
is_partition_table  | boolean  | 是否为分区表。 
  | 
entity_type  | bigint  | 实体类型。 
  | 
categories  | string  | 类目信息  | 
last_access_time  | bigint  | 表最后访问时间(10位UNIX_TIMESTAMP)  | 
size  | bigint  | 表大小,此处指数据占用的逻辑存储值,单位为Byte,视图对应存储量为NULL。  | 
column_count  | bigint  | 字段数量(含分区列)  | 
partition_count  | bigint  | 分区数量,对于非分区表该值为NULL。  | 
detail_view_count  | bigint  | 通过页面查看表详情的次数  | 
favorite_count  | bigint  | 添加表到收藏的次数  | 
Table额外指标rpt_v_meta_ind_table_extra
名称  | 类型  | 描述  | 
tenant_id  | bigint  | DataWorks租户ID  | 
table_uuid  | string  | 表唯一标识  | 
read_count  | bigint  | 读取次数(通过SQL读取次数,包含非调度任务)  | 
read_count_30d  | bigint  | 30天读取次数(通过SQL读取次数,包含非调度任务)  | 
write_count  | bigint  | 写入次数(通过SQL写入次数,包含非调度任务)  | 
join_count  | bigint  | 关联次数,即作为join运算的参与方的次数。  | 
direct_upstream_count  | bigint  | 血缘关系中,其直接上游表的数量。  | 
direct_downstream_count  | bigint  | 血缘关系中,其直接下游表的数量。  | 
output_task_count  | bigint  | 产出当前表的任务数量  | 
数据库(ODPS项目)元数据明细raw_v_meta_database
名称  | 类型  | 描述  | 
tenant_id  | bigint  | DataWorks租户ID  | 
project_id  | bigint  | DataWorks项目ID  | 
env_type  | bigint  | 环境类型。 
  | 
catalog_name  | string  | 所属catalog。MaxCompute项目对应值为odps。  | 
database_name  | string  | 数据库或ODPS项目名称  | 
database_comment  | string  | 数据库或ODPS项目描述  | 
owner_name  | string  | 所有者名称  | 
created_time_ts  | bigint  | 创建时间戳(13位数字时间戳)  | 
last_modified_time_ts  | bigint  | 最后修改时间(13位数字时间戳)  | 
location  | string  | 数据库存储路径  | 
extras  | string  | 数据库额外属性信息,为JSON字符格式。 MaxCompute项目如果设置了预览和表可见范围属性,可以通过KEY:allowDataPreview和projectVisibility获取。 
  | 
biz_date  | string  | 业务数据日期  | 
表(table)元数据明细raw_v_meta_table
名称  | 类型  | 描述  | 
tenant_id  | bigint  | DataWorks租户ID  | 
project_id  | string  | DataWorks项目ID  | 
table_uuid  | string  | 表唯一标识  | 
table_name  | string  | 表名称  | 
table_type  | string  | 表类型  | 
catalog_name  | string  | 所属catalog。MaxCompute项目对应值为odps。  | 
database_name  | string  | 数据库或ODPS项目名称  | 
partition_keys  | string  | 表的分区键。多级分区使用英文逗号(,)分隔,非分区表该值为空字符串。  | 
table_comment  | string  | 表描述信息  | 
table_biz_comment  | string  | 表业务描述信息  | 
visibility_scope  | bigint  | 表可见范围。 
  | 
owner_name  | string  | 所有者名称  | 
created_time_ts  | bigint  | 创建时间(13位数字时间戳)  | 
last_modified_time_ts  | bigint  | 数据最后修改时间(13位数字时间戳)  | 
last_meta_modified_time_ts  | bigint  | 表元数据最后变更时间(13位数字时间戳)  | 
location  | string  | 表存储路径  | 
life_cycle  | bigint  | 表生命周期,单位为天。  | 
data_size  | bigint  | 表的逻辑存储量,单位为Byte。当表为分区表时,该值为NULL,需要根据其分区列表统计存储量。  | 
biz_date  | string  | 业务数据日期  | 
视图(view)元数据明细raw_v_meta_view
名称  | 类型  | 描述  | 
tenant_id  | bigint  | DataWorks租户ID  | 
project_id  | string  | DataWorks项目ID  | 
table_uuid  | string  | 表唯一标识  | 
table_name  | string  | 表名称  | 
catalog_name  | string  | 所属catalog。MaxCompute项目对应值为odps。  | 
database_name  | string  | 数据库或ODPS项目名称  | 
table_comment  | string  | 表描述信息  | 
table_biz_comment  | string  | 表业务描述信息  | 
visibility_scope  | bigint  | 表可见范围。 
  | 
owner_name  | string  | 所有者名称  | 
created_time_ts  | bigint  | 创建时间(13位数字时间戳)  | 
last_ddl_time_ts  | bigint  | DDL最后修改时间(13位数字时间戳)  | 
view_text  | string  | 创建视图的SQL语句  | 
biz_date  | string  | 业务数据日期  | 
列(column)元数据明细raw_v_meta_column
名称  | 类型  | 描述  | 
tenant_id  | bigint  | DataWorks租户ID  | 
project_id  | bigint  | DataWorks项目ID  | 
catalog_name  | string  | 所属catalog。MaxCompute项目对应值为odps。  | 
database_name  | string  | 数据库或ODPS项目名称  | 
table_name  | string  | 表名称  | 
column_name  | string  | 字段名称  | 
column_comment  | string  | 字段描述信息  | 
column_biz_comment  | string  | 字段业务描述信息  | 
column_type  | string  | 字段类型  | 
column_sequence  | bigint  | 字段顺序(从1开始)  | 
is_partition_key  | boolean  | 是否为分区键  | 
is_primary_key  | boolean  | 是否为主键  | 
biz_date  | string  | 业务数据日期  | 
分区(partition)元数据明细 raw_v_meta_partition
名称  | 类型  | 描述  | 
tenant_id  | bigint  | DataWorks租户ID  | 
project_id  | bigint  | DataWorks项目ID  | 
catalog_name  | string  | 所属catalog。MaxCompute项目对应值为odps。  | 
database_name  | string  | 数据库或ODPS项目名称  | 
table_name  | string  | 表名称  | 
partition_name  | string  | 分区名称  | 
size  | bigint  | 分区大小(逻辑大小),单位为Byte  | 
record_number  | bigint  | 分区记录数量  | 
created_time_ts  | bigint  | 创建时间(13位数字时间戳)  | 
last_modified_time_ts  | bigint  | 最后修改时间(13位数字时间戳)  | 
biz_date  | string  | 业务数据日期  | 
表血缘(table-lineage)元数据明细raw_v_meta_table_lineage
因为SQL语言与用户代码等本身的复杂性,血缘功能做不到100%的完整性与准确性。请不要用此功能支持需要保证完整性与正确性的业务。
表血缘数据包含MaxCompute引擎产生的血缘关系和数据集成离线同步任务产生的血缘关系。
名称  | 类型  | 描述  | 
tenant_id  | bigint  | DataWorks租户ID  | 
project_id  | bigint  | DataWorks项目ID  | 
src_type  | string  | 源数据源类型  | 
src_data_source_id  | string  | 源数据源标识  | 
src_database  | string  | 源数据库  | 
src_table  | string  | 源表  | 
dest_type  | string  | 目标数据源类型  | 
dest_data_source_id  | string  | 目标数据源标识  | 
dest_database  | string  | 目标数据库  | 
dest_table  | string  | 目标表  | 
schedule_task_id  | string  | 调度任务ID  | 
schedule_instance_id  | string  | 调度任务实例ID  | 
schedule_task_owner  | string  | 调度任务Owner  | 
job_start_time_ts  | bigint  | 任务开始时间(13位数字时间戳)  | 
job_end_time_ts  | bigint  | 任务结束时间(13位数字时间戳)  | 
execute_time  | bigint  | 任务耗时,单位为秒  | 
input_record_number  | bigint  | 源表输入记录数  | 
biz_date  | string  | 业务数据日期  | 
表产出任务(table-output)元数据明细raw_v_meta_table_output
数据地图页面透出的产出任务只有ODPS表,此处产出表类型是大血缘支持的表类型。
产出信息基于血缘计算。
名称  | 类型  | 描述  | 
tenant_id  | bigint  | DataWorks租户ID  | 
project_id  | bigint  | DataWorks项目ID,此处指运行调度任务的项目。  | 
type  | string  | 数据源类型  | 
data_source_id  | string  | 数据源标识  | 
database  | string  | 数据库  | 
table  | string  | 表名称  | 
schedule_task_id  | string  | 调度任务ID  | 
schedule_instance_id  | string  | 调度任务实例ID  | 
schedule_task_owner  | string  | 调度任务Owner  | 
job_start_time_ts  | bigint  | 任务开始时间(13位数字时间戳)  | 
job_end_time_ts  | bigint  | 任务结束时间(13位数字时间戳)  | 
execute_time  | bigint  | 任务耗时,单位为秒。  | 
biz_date  | string  | 业务数据日期  | 
表使用(table-usage)信息元数据明细raw_v_meta_table_usage
名称  | 类型  | 描述  | 
tenant_id  | bigint  | DataWorks租户ID  | 
project_id  | bigint  | DataWorks项目ID,此处指运行调度任务的项目。  | 
catalog_name  | string  | 所属catalog。MaxCompute项目对应值为odps。  | 
database_name  | string  | 数据库或ODPS项目名称  | 
table_name  | string  | 表名称  | 
schedule_task_id  | string  | 调度任务ID  | 
schedule_task_owner  | string  | 调度任务的负责人,如果当前任务未经DataWorks调度,该值为NULL  | 
job_id  | string  | 任务标识(此处不一定是DataWorks调度任务实例),可以基于此来统计表读取,写入次数等  | 
op_type  | string  | 操作类型,如READ、WRITE、UNKNOWN等  | 
extras  | string  | 额外信息,格式为JSON字符串格式。 操作表的任务为ODPS任务时,可以通过KEY为task_name获取ODPS任务名称。若DataWorks调度任务ID不为空,可以通过schedule_task_name属性获取调度任务名称。例如   | 
biz_date  | string  | 业务数据日期  | 
字段使用(column-usage)信息元数据明细raw_v_meta_column_usage
名称  | 类型  | 描述  | 
tenant_id  | bigint  | DataWorks租户ID  | 
project_id  | bigint  | DataWorks项目ID,此处指运行调度任务的项目。  | 
catalog_name  | string  | 所属catalog。MaxCompute项目对应值为odps。  | 
database_name  | string  | 数据库或ODPS项目名称  | 
table_name  | string  | 表名称  | 
column_name  | string  | 字段名称  | 
schedule_task_id  | string  | 调度任务ID  | 
schedule_task_owner  | string  | 调度任务的负责人,如果当前任务未经DataWorks调度,该值为NULL  | 
inst_id  | string  | 任务标识(此处不一定是DataWorks调度任务实例)  | 
op_type  | string  | 操作类型,如select、join、groupby、where等  | 
extras  | string  | 额外信息,JSON字符串。 操作表的任务为ODPS任务时,可以通过KEY为task_name获取ODPS任务名称。若DataWorks调度任务ID不为空,可以通过schedule_task_name属性获取调度任务名称。例如   | 
biz_date  | string  | 业务数据日期  | 
表WIKI(table-wiki)信息元数据明细raw_v_meta_biz_table_wiki
名称  | 类型  | 描述  | 
tenant_id  | bigint  | DataWorks租户ID  | 
project_id  | bigint  | DataWorks项目ID,此处指运行调度任务的项目。  | 
catalog_name  | string  | 所属catalog。MaxCompute项目对应值为odps。  | 
database_name  | string  | 数据库或ODPS项目名称  | 
table_name  | string  | 表名称  | 
version  | string  | wiki版本号  | 
operator  | string  | 最后操作人,可能是某一任的表owner。  | 
content  | string  | 以Markdown格式编写的wiki  | 
update_time_ts  | bigint  | 修改时间(13位数字时间戳)  | 
biz_date  | string  | 业务数据日期  | 
表频繁关联(table-join)信息元数据明细raw_v_meta_table_join_map
名称  | 类型  | 描述  | 
tenant_id  | bigint  | DataWorks租户ID  | 
catalog_name  | string  | 所属catalog。MaxCompute项目对应值为odps。  | 
database_name  | string  | 数据库或ODPS项目名称  | 
table_name  | string  | 表名称  | 
column_name  | string  | 字段名称  | 
join_database_name  | string  | 关联数据库或ODPS项目名称  | 
join_table_name  | string  | 关联表名称  | 
join_column_name  | string  | 关联字段名称  | 
join_type  | string  | JOIN类型,比如:left,right,inner  | 
schedule_task_id  | string  | 调度任务ID  | 
schedule_task_owner  | string  | 调度任务的负责人  | 
job_id  | string  | 引擎层的任务标识  | 
extras  | string  | 额外信息,格式为JSON字符串格式。操作表的任务为ODPS任务时,可以通过KEY为task_name获取ODPS任务名称。  | 
biz_date  | string  | 业务数据日期  | 
元数据表详情查看记录明细raw_v_meta_table_detail_log
名称  | 类型  | 描述  | 
tenant_id  | bigint  | DataWorks租户ID  | 
catalog_name  | string  | 所属catalog。MaxCompute项目对应值为odps。  | 
database_name  | string  | 数据库或ODPS项目名称  | 
table_name  | string  | 表名称  | 
operator  | string  | 表详情查看者  | 
view_time_ts  | bigint  | 查看表详情时间(13位数字时间戳)  | 
biz_date  | string  | 业务数据日期  | 
元数据类目明细raw_v_meta_category
名称  | 类型  | 描述  | 
tenant_id  | bigint  | DataWorks租户ID  | 
category_id  | bigint  | 类目ID  | 
category_name  | string  | 类目名称  | 
category_pid  | bigint  | 父类目ID(为0或NULL代表是顶级类目)  | 
depth  | bigint  | 类目层级(深度),一级类目为1  | 
sort_field  | double  | 排序字段  | 
creator_account  | string  | 类目创建人账号  | 
created_time_ts  | bigint  | 创建时间戳(13位数字时间戳)  | 
last_modified_time_ts  | bigint  | 最后修改时间(13位数字时间戳)  | 
biz_date  | string  | 业务数据日期  | 
调度节点明细raw_v_schedule_node
名称  | 类型  | 描述  | 
tenant_id  | bigint  | 租户ID  | 
project_id  | bigint  | 项目空间ID  | 
node_id  | bigint  | 节点ID  | 
node_name  | string  | 节点名称  | 
node_type  | bigint  | 节点调度类型。 
  | 
prg_type  | bigint  | 节点类型,可参见支持的节点类型。 
  | 
flow_id  | bigint  | 工作流ID  | 
project_env  | string  | 环境标识。 
  | 
create_time  | bigint  | 创建时间戳(13位数字时间戳)  | 
create_user  | string  | 创建人  | 
modify_time  | bigint  | 最后修改时间(13位数字时间戳)  | 
modify_user  | string  | 修改人  | 
prg_name  | string  | 节点类型名称  | 
para_value  | string  | 执行参数  | 
file_id  | bigint  | 对应的文件ID  | 
file_version  | bigint  | 对应文件版本  | 
owner  | string  | 节点Owner  | 
resgroup_id  | bigint  | 资源组ID  | 
baseline_id  | bigint  | 基线ID  | 
cycle_type  | bigint  | 调度周期。 
  | 
repeatable  | bigint  | 重跑标识。 
  | 
connection  | string  | 数据源连接串  | 
dqc_type  | bigint  | DQC类型。 
  | 
dqc_description  | string  | DQC规则串  | 
task_rerun_time  | bigint  | 任务可重跑次数  | 
task_rerun_interval  | bigint  | 重跑间隔,单位为毫秒  | 
cron_express  | string  | 节点的调度频率CRON表达式  | 
priority  | bigint  | 任务优先级,取值为:1、3、5、7、8。数值越大优先级越高。  | 
start_effect_date  | bigint  | 节点的生效日期(13位数字时间戳)  | 
end_effect_date  | bigint  | 节点的失效日期(13位数字时间戳)  | 
biz_date  | string  | 业务数据日期  | 
调度任务明细raw_v_schedule_task
名称  | 类型  | 描述  | 
tenant_id  | bigint  | 租户ID  | 
project_id  | bigint  | 项目空间ID  | 
node_id  | bigint  | 节点ID  | 
node_name  | string  | 节点名称  | 
task_id  | bigint  | 任务名称  | 
dag_id  | bigint  | 工作流的DAGID  | 
task_type  | bigint  | 任务调度类型。 
  | 
dag_type  | bigint  | DAG类型。 
  | 
prg_type  | bigint  | 节点类型,可参见支持的节点类型。 
  | 
flow_id  | bigint  | 工作流ID  | 
create_time  | bigint  | 创建时间戳(13位数字时间戳)  | 
modify_time  | bigint  | 最后修改时间(13位数字时间戳)  | 
cycle_time  | bigint  | 调度时间(13位数字时间戳)  | 
in_group_id  | bigint  | 任务序号  | 
prg_name  | string  | 节点类型名称  | 
para_value  | string  | 执行参数  | 
file_id  | bigint  | 对应的文件ID  | 
file_version  | bigint  | 对应文件版本  | 
owner  | string  | 节点Owner  | 
resgroup_id  | bigint  | 资源组ID  | 
baseline_id  | bigint  | 基线ID  | 
cycle_type  | bigint  | 调度周期 
  | 
repeatable  | bigint  | 重跑标识。 
  | 
connection  | string  | 数据源连接串  | 
dqc_type  | bigint  | DQC类型。 
  | 
dqc_description  | string  | DQC规则串  | 
task_rerun_time  | bigint  | 任务可重跑次数  | 
task_rerun_interval  | bigint  | 重跑间隔,单位为毫秒  | 
begin_waittime_time  | bigint  | 开始等时间的时间戳(13位数字时间戳)  | 
finish_time  | bigint  | 运行完成时间戳(13位数字时间戳)  | 
begin_waitres_time  | bigint  | 开始等资源的时间戳(13位数字时间戳)  | 
begin_run_time  | bigint  | 开始运行时间戳(13位数字时间戳)  | 
rerun_times  | bigint  | 任务重跑次数  | 
priority  | bigint  | 任务优先级,取值为:1、3、5、7、8。数值越大优先级越高。  | 
task_key  | string  | 任务唯一标识  | 
error_msg  | string  | 运行错误原因  | 
status  | bigint  | 任务状态。 
  | 
biz_date  | string  | 业务数据日期  | 
调度节点关系raw_v_schedule_node_relation
名称  | 类型  | 描述  | 
tenant_id  | bigint  | 租户ID  | 
child_node_id  | bigint  | 下游节点ID  | 
parent_node_id  | bigint  | 上游节点ID  | 
step_type  | bigint  | 依赖关系类型。 
  | 
child_flow_id  | bigint  | 工作流ID  | 
project_env  | string  | 环境标识。 
  | 
create_time  | bigint  | 创建时间戳(13位数字时间戳)  | 
create_user  | string  | 创建人  | 
modify_time  | bigint  | 最后修改时间(13位数字时间戳)  | 
modify_user  | string  | 修改人  | 
biz_date  | string  | 业务数据日期  | 
调度任务实例关系raw_v_schedule_task_relation
名称  | 类型  | 描述  | 
tenant_id  | bigint  | 租户ID  | 
child_task_id  | bigint  | 下游任务实例ID  | 
parent_task_id  | bigint  | 上游任务实例ID  | 
child_project_id  | bigint  | 下游任务实例工作空间ID  | 
parent_project_id  | bigint  | 上游任务实例工作空间ID  | 
step_type  | bigint  | 依赖关系类型 
  | 
daily_dag_id  | bigint  | 全局dagID  | 
child_dag_inst_id  | bigint  | 局部dagID  | 
biz_date  | string  | 业务数据日期  | 
调度数据集成资源组明细raw_v_schedule_di_resgroup
名称  | 类型  | 描述  | 
tenant_id  | bigint  | 租户ID  | 
project_id  | bigint  | 项目空间ID  | 
node_id  | bigint  | 节点ID  | 
project_env  | string  | 项目环境  | 
res_group_identifier  | string  | 数据集成资源组标识  | 
src_type  | string  | 来源数据源类型  | 
dst_type  | string  | 去向数据源类型  | 
src_datasource  | string  | 来源数据源  | 
dst_datasource  | string  | 去向数据源  | 
config_concurrent  | bigint  | 并发数  | 
biz_date  | string  | 业务数据日期  | 
租户资源组(包含调度,数据集成及odps资源组)raw_v_tenant_res_group
名称  | 类型  | 描述  | 
tenant_id  | bigint  | 租户ID  | 
res_group_id  | bigint  | 资源组ID  | 
res_group_identifier  | string  | 资源组标识  | 
res_group_type  | bigint  | 资源组类型。 
  | 
res_group_mode  | bigint  | 资源组类型。 
  | 
status  | bigint  | 资源组状态。 
  | 
biz_ext_key  | string  | 资源组扩展字段。取值为single时表示为独享资源组。  | 
biz_date  | string  | 业务数据日期  | 
租户用户信息raw_v_tenant_user
名称  | 类型  | 描述  | 
tenant_id  | bigint  | 租户ID  | 
yun_account  | string  | 云账号  | 
account_name  | string  | 账号名  | 
nick  | string  | 账号显示名称  | 
full_yun_account  | string  | 含AccountProvider的云账号  | 
biz_date  | string  | 业务数据日期  | 
租户工作空间信息raw_v_tenant_workspace
名称  | 类型  | 描述  | 
tenant_id  | bigint  | 租户ID  | 
project_id  | bigint  | 工作空间ID  | 
project_name  | string  | 工作空间名称  | 
project_identifier  | string  | 工作空间标识符  | 
project_desc  | string  | 工作空间描述信息  | 
project_owner  | string  | 工作空间Owner  | 
status  | bigint  | 工作空间状态。 
  | 
biz_date  | string  | 业务数据日期  | 
租户工作空间用户信息raw_v_tenant_workspace_user
名称  | 类型  | 描述  | 
tenant_id  | bigint  | DataWorks租户ID  | 
project_id  | bigint  | DataWorks项目ID  | 
base_id  | string  | 用户baseId  | 
status  | bigint  | 用户状态。 
  | 
gmt_create_ts  | bigint  | 创建时间(13位数字时间戳)  | 
gmt_modified_ts  | bigint  | 修改时间(13位数字时间戳)  | 
biz_date  | string  | 业务数据日期  |