文档更新动态(2025年)--独享模式(半托管)

本文为您介绍2025Dataphin版本文档更新动态,方便您及时了解Dataphin版本新增特性及功能变更。

202502

更新时间:20250228

对应发布的版本:V5.0

文档节点

描述

更新、新增

相关文档

管理中心-系统设置-租户设置-计算设置

新增支持Databricks作为离线计算引擎。

新增

管理中心-系统设置-租户设置-资源设置

K8s集群下,支持将资源组中的空闲资源借用给其他资源组,若当前资源组需要,可通过排队等待的方式回收借出的资源。其中,所借用后的资源总量不能超过所设置的资源上限。

更新

新建自定义资源组

管理中心-数据源管理

支持设置数据源的默认资源组,用于运行与数据源相关的任务,包括:数据库SQL、离线整库迁移、数据预览等。

更新

数据源管理

数据引入-数据集成-离线集成

  • 新增支持TDengineDatabricks数据源的离线集成。

  • 整库迁移支持TDengine数据源作为来源数据库,Databricks数据源作为目标数据库。

更新

数据引入-数据集成-实时集成

  • 当来源数据库为MySQL,目标数据库为MaxComputeDatabricks时,支持选择实时增量+全量方式同步数据。

  • 当目标数据库为Hive时,来源数据库支持选择Kafka,仅支持选择目标端已创建的表进行数据同步,并且需要指定来源表。

  • 当计算引擎为开源Flink、阿里云实时计算Flink(Flink VVP)时,资源配置新增支持Job Manager CPU、Job Manager Memory、Task Manager CPU 、Task Manager Memory(原内存配置)参数配置。

新增

数据开发-编码研发-计算任务-离线任务开发

  • 当计算引擎为Hadoop且存储类型为外部表时,支持的存储格式为Hudi、Delta Lake表;当计算引擎为MaxCompute且存储类型为内部表时,支持编辑Delta表及事务表。

  • 数据库SQL新增支持DorisSelectDB数据源。

  • ArgoDB新增支持merge into语法;MaxCompute新增支持json literal常量,即json '{"key":"value"}'语法。

  • 补数据任务新增支持自定义业务日期,可指定补单天数据,支持快捷选择补月末数据。

  • 补数据和补数据任务包含小时分钟任务时,支持限定补数据的时间范围,仅生成指定时间范围内的实例。

更新

数据开发-编码研发-计算任务-表管理

元表新增支持Rabbit MQ数据源。

更新

创建及管理元表

资产治理-资产清单

新增支持查看集成任务相关的字段血缘,元数据采集的数据源类型,支持查看对应集成任务生成的字段血缘,并可查看全量数据源的表级血缘。

更新

资产治理-数据标准

  • 标准落标监控配置优化:针对系统属性,可选是否添加内置的落标监控配置。

  • 编辑数据标准时,可同步编辑关联标准和关联文档。

更新

资产治理-数据安全

  • 新增支持添加数据源表识别结果,可通过手动添加或批量导入方式进行添加。

  • 支持配置识别规则的扫描范围,选择是否包含视图对象,开启后可自动针对视图进行分类分级打标,若未开启,可手动添加视图对象的识别结果。

  • 支持停用数据分类,针对停用数据分类已生成的识别结果,支持保留或删除当前生效的识别结果及该字段的所有识别记录。

  • 支持手动运行单条识别规则。

更新

资产治理-元数据中心

  • 元数据采集源新增支持ClickHouse、Greenplum、OceanBase数据源。

  • 新增支持Quick BI仪表板采集,可查看仪表板基础信息及属性信息,并可上架资产目录。

更新

资产运营-目录管理

  • 新增支持Quick BI仪表板的上架管理。

  • 手动上架表资产时,支持批量修改相关指标的目录、标签、统计周期等属性,并可一键添加所有必填属性。

  • 支持在资产目录预览数据源表的数据。

  • 资产专题支持批量编辑目录名称及描述。

新增

数据服务-服务开发/服务调用

直连数据源API新增支持GaussDB(DWS)数据源。

更新

通过直连数据源模式创建API

标签工厂-数据准备/标签加工

  • 离线数据集、行为关系支持使用逻辑表作为数据来源。

  • 日期类型标签条件配置功能增强:

    • 规则组合标签、群组加工引用日期类型标签时,动态时间条件配置新增早于、早于等于、晚于、晚于等于,适用于与过去及未来时间进行条件判断。

    • 行为偏好标签、行为统计标签以及规则组合标签、群组引用行为关系时,配置动态时间段,新增支持今年、本月、本周快捷条件,动态时间基于bizdate进行计算。

更新

元数据共享模型

  • 物理表dim_dataphin_table及资产清单表dim_dataphin_mdc_object新增table_location字段,便于查询表的存储路径。

  • 数据源表dim_dataphin_data_source新增tag_name_list(数据源标签)字段。

  • 安全识别记录表dim_dataphin_security_label新增如下字段:data_source_id(数据源ID)、datasource_name(数据源名称)、data_source_type(数据源类型),便于获取数据源表识别结果的更多信息。

更新

OpenAPI

  • 当修改SearchDataSourceConfig接口,返回值增加customizedType,当dataSourceTypeCUSTOMIZED时有值,值为自定义数据源类型编码CUSTOM_XXX。

  • 当修改GetOnlineFeatureById接口,返回值dataUpdateDate更新策略调整为主动更新,无需再在资产详情页触发更新。

更新

OpenAPI列表

202502

更新时间:20250211

对应发布的版本:V4.5

文档节点

描述

更新、新增

相关文档

全局管理

针对已购买的Dataphin实例,支持升级配置,如果您已购买智能研发版的数据处理单元和资产质量的最高规格,且已开通所有可选增值功能包,则不支持升级配置操作。

更新

管理中心-系统设置-租户设置-计算设置

新增支持华为GaussDB(DWS)作为计算引擎。

新增

设置Dataphin实例的计算引擎为GaussDB(DWS)

管理中心-数据源管理

支持测试GreenplumFTP数据源与外部调度集群的连通性。

更新

数据引入-数据集成-离线集成

  • 整库迁移目标端支持读取或写入MaxCompute Delta表、新增支持SelectDBDoris数据源,并可一键建表。

  • 当输入组件为MySQL且来源表量为多表时,支持选择多个不同的数据库、多个数据表同步数据,满足分库分表的场景。

更新

数据开发-编码研发-计算任务-离线任务开发

  • 数据库SQL新增支持AnalyticDB for MySQL 2.0、AnalyticDB for MySQL 3.0、GaussDB(DWS)数据源。

  • 当调度周期选择小时,支持根据时间段设置不同调度频次。

  • 条件调度功能升级,支持通过运行日期、运行时间控制不同日期及时间段生成的实例的调度方式;支持按照运行日期预览调度计划。

  • 在线安装/升级Python三方包支持指定Module的版本。

更新

数据开发-编码研发-计算任务-表管理

  • 支持Hive数据源的Hudi数据湖表格式作为元表数据来源,当选择Hudi表时将使用dp-Hudi Connector。

  • 支持Hudi数据源跨集群写入,适用于Flink所在集群无认证而Hudi数据源有认证的场景。

  • dp-Hudi Connector将使用数据源上的认证信息进行数据写入(该方式需要在Hive数据源注册时上传hive-site.xml)。

更新

创建及管理元表

资产治理-资产清单

血缘图整体样式升级,支持查看存在循环依赖的对象血缘关系,支持快速搜索已展开的血缘图内的节点。

更新

Dataphin资产详情

资产治理-元数据中心

  • 新增支持MySQL、AnalyticDB for MySQL 3.0、PolarDB-X(原DRDS)、StarRocks数据源采集同一个数据源下的全部Database或指定Database下的数据。

  • 来源系统支持配置系统类型,可用于系统血缘关系的构建。

更新

资产运营-资产目录

  • 新增API对象列表,支持按照API专题或目录进行查看。

  • 支持根据不同对象类型的属性筛选资产或展示列表信息。

  • 表、指标资产编辑时开启血缘关系、质量概况、元数据变更(仅表资产支持查看),可在资产目录详情查看相关信息。

更新

资产运营-资产消费

  • 新增电子表格消费渠道,可选择有权限的表快速跳转创建电子表格。

  • 在创建消费任务时,默认填充工作空间,提升易用性。

  • 支持设置表结构变更时,是否自动更新已经在Quick BI平台创建的Dataphin数据集定义,以实现表结构的动态更新。

  • 支持查看基于当前最新表结构在Quick BI创建对应的Dataphin数据集的SQL定义语句,以便在表结构变更时可手动更新相关数据集定义。

更新

资产运营-目录管理-目录规划

新增支持批量导入导出资产专题功能,可基于系统模板,填写配置信息后,将线下已梳理的内容批量导入Dataphin,也可将已有的资产目录配置下载至本地,修改后再进行导入。

新增

批量导入导出资产专题

资产运营-目录管理手动上架资产

新增支持批量导入导出表、指标资产功能, 支持批量下载当前资产配置的Excel模板,更新后再重新批量导入Dataphin系统。

新增

批量导入导出资产

资产运营-目录管理自动上架资产

  • 新增支持暂不上架类型的手动上架规则,可用于将指定范围的资产自动从准资产状态变更为暂不上架状态,从而降低资产管理复杂度

  • 支持手动执行、终止单条自动上架规则。

更新

数据服务-服务开发/服务调用

  • 优化脚本模式API,支持单值、多值参数值类型;针对Like操作符,支持模糊匹配、右匹配、左匹配。

  • 调用说明优化,支持展示文档大纲;支持上传或隐藏调用示例中的Java SDK、调用说明。

  • 直连数据源和SQL模式的API支持将试运行结果回填为API示例值。

  • 支持批量发布API,不包括逻辑表API。

更新

标签工厂-数据准备/标签加工

  • 离线标签新增支持计算标签,基于已有标签通过关系操作、函数构建标签计算逻辑等可视化方式将标签计算结果作为标签值

  • 规则组合离线标签支持再次嵌套组合标签,进行标签的二次加工。

  • 标签离线服务支持导出行为偏好标签及其关联的码表信息。

  • 标签及群组离线服务支持批量导出所选中的标签值或代码描述。

  • 离线数据集的调度依赖支持调整依赖策略,如依赖全部实例、最后一个实例等。

更新

元数据共享模型

  • dim_dataphin_table表新增如下字段:last_access_time(最近访问时间)、tag_list(资产清单中配置的资产标签)、storage_format(表存储格式)、favorites_count(收藏次数)、pv_count(浏览次数),并提供表访问次数的统计方式说明,便于获取更多资产详情信息用于统计分析。

  • 新增上架资产信息表dim_dataphin_mdc_list_object,包括已上架状态的资产的来源、归属目录、资产标签、可见范围等信息。

  • 新增全量准资产对象表dim_dataphin_mdc_object、全量准资产字段表dim_dataphin_mdc_column,当前包括物理表、逻辑表和数据源表,可通过字段asset_sub_type查看资产的类型。

更新

OpenAPI

  • 新增GetDirectoryTree,支持获取实时任务存储目录 。

  • 新增GetClusterQueueInfoByEnv,支持获取实时任务资源队列 。

  • 新增GetQueueEngineVersionByEnv,支持获取实时任务引擎版本 。

  • 新增CreateStreamBatchJobMapping,支持创建Flink SQL任务。

  • 新增CreatePipelineNode,支持创建数据集成管道任务。

  • 新增ListAuthorizedDataServiceApiDetails,用于查询应用已申请的API的具体字段列表。

  • 新增ListSparkClient,用于获取指定项目下Spark客户端名称列表。

更新

OpenAPI列表