功能名称 | 功能描述 | 相关文档 |
售卖 | 针对已购买的Dataphin实例,支持升级配置,如果您已购买智能研发版的数据处理单元和资产质量的最高规格,且已开通所有可选增值功能包,则不支持升级配置操作。 | |
租户设置 | 开通域内质量或全域质量,均可创建数据源监控规则。 | 租户设置 |
计算设置 | | 设置Dataphin实例的计算引擎为GaussDB(DWS) |
项目角色管理 | 自定义项目角色新增项目质量管理-质量规则管理权限点;系统角色(除标签项目角色外)支持编辑、新增、取消项目质量管理-质量规则管理权限点。 | 附录:全局和项目角色权限说明 |
全局角色管理 | 自定义全局角色新增质量规则-管理、规则模板-管理、知识库-管理权限点。 |
数据源 | 支持测试Greenplum和FTP数据源与外部调度集群的连通性。 | |
审批模板 | 针对注册密钥时仅负责人可管理的密钥,增加仅负责人可管理的密钥权限申请审批模板。 | 查看及配置内置审批模板 |
离线集成 | 整库迁移目标端支持读取或写入MaxCompute Delta表、新增支持SelectDB和Doris数据源,并可一键建表。 整库迁移目标端支持读取和写入Hudi表,支持选择配置了Hudi表格式的Hive数据源(当前仅CDP7.x Hive3.1.3支持Hudi)。 当输入组件为MySQL且来源表量为多表时,支持选择多个不同的数据库、多个数据表同步数据,满足分库分表的场景。 逻辑表输入组件关联字段支持全选和反选功能。
| |
实时集成 | 实时集成目标端为Hudi,默认建表支持使用Spark语法且表类型为MOR,包含RO、RT、原表三种类型。 写入MaxCompute时支持根据采样结果动态调整MaxCompute并发数,资源利用更合理。 当调整一键建表时,Hudi表的分区路径为:yyyy=xxxx/mm=xx/dd=x/hh=xx/ 。
| |
离线研发 | 支持通过在Spark客户端上传并提交Spark批任务,实现Spark批任务的高可用与全生命周期管理。 数据库SQL新增支持AnalyticDB for MySQL 2.0、AnalyticDB for MySQL 3.0、GaussDB(DWS)数据源。 当调度周期选择小时,支持时间段、整点、自定义时间点、自定义时间段的不同调度频次。 条件调度功能升级,支持通过运行日期、运行时间控制不同日期及时间段生成的实例的调度方式;支持按照运行日期预览调度计划。 在Python任务中可以引用的Python三方包提交到 MaxCompute后,系统会自动上报与SQL任务相同的 Dataphin元数据,可在MaxCompute console中定位到该任务,便于成本考核。 在生产环境中运行手动任务,支持全局变量自动替换值。 在开发环境运行时,运行日志对账号密码全局变量进行脱敏。 Spark SQL任务通过Livy和kyuubi服务,可在Yarn上正常展示Dataphin上报的application name。 在线安装/升级Python三方包支持指定module的版本。
| |
实时研发 | 支持Hive数据源的Hudi数据湖表格式作为元表数据来源,当选择Hudi表时将使用dp-Hudi Connector。 支持Hudi数据源跨集群写入,适用于Flink所在集群无认证而Hudi数据源有认证的场景。 dp-Hudi Connector将使用数据源上的认证信息进行数据写入(该方式需要在Hive数据源注册时上传hive-site.xml)。
| 创建及管理元表 |
资产清单 | 血缘图整体样式升级,支持查看存在循环依赖的对象血缘关系,支持快速搜索已展开的血缘图内的节点。 | Dataphin资产详情 |
数据安全 | | |
元数据中心 | | |
资产目录 | 新增API对象列表,支持按照API专题或目录进行查看。 资产筛选优化,支持根据不同对象类型的属性结合筛选条件,快速筛选资产,以实现灵活筛选。 表、指标资产列表优化,支持自定义展示不同资产对象列表的信息列,快速获取更多所需信息,简化资产查找。 表、指标资产编辑时开启血缘关系、质量概况、元数据变更(仅表资产支持查看),可在资产目录详情查看相关信息。 血缘关系:支持查看系统、表、字段的血缘链路图;支持切换查看某个系统节点包含的指定表的表血缘、或某个表节点包含的指定字段的字段详情;支持隐藏暂未上架或已上架但无查看权限的节点;支持查看已上架到资产目录的表、指标资产的概要信息,并可快捷跳转查看详情。 质量概况:支持查看表、指标资产的质量概况。可查看指定字段在质量六性维度下的质量分概况以及表、指标资产的规则统计和规则校验记录。 元数据变更:支持查看表资产任意两个版本之间的变更记录,若最近一次变更包含字段结构变更,可查看本次变更可能产生的下游影响,以便及时通知下游相关人员进行调整适配。
| |
资产消费 | 新增电子表格消费渠道,可选择有权限的表快速跳转创建电子表格。 在创建消费任务时,默认填充工作空间,提升易用性。 支持设置表结构变更时,是否自动更新已经在Quick BI平台创建的Dataphin数据集定义,以实现表结构的动态更新。 支持查看基于当前最新表结构在Quick BI创建对应的Dataphin数据集的SQL定义语句,以便在表结构变更时可手动更新相关数据集定义。
| |
目录规划 | 新增支持批量导入导出资产专题功能,可基于系统模板,填写配置信息后,将线下已梳理的内容批量导入Dataphin,也可将已有的资产目录配置下载至本地,修改后再进行导入。 | 批量导入导出资产专题 |
资产上架-手动上架 | 新增支持批量导入导出表、指标资产功能, 支持批量下载当前资产配置的Excel模板,更新后再重新批量导入Dataphin系统;并可在批量操作记录中,针对导入操作失败的对象,一键下载异常记录。 | 批量导入导出资产 |
资产上架-自动上架 | | |
数据服务 | 优化脚本模式API,支持单值、多值参数值类型;针对Like操作符,支持模糊匹配、右匹配、左匹配。 支持API在发布上线前进行联调和测试。 调用说明优化,支持展示文档大纲;支持上传或隐藏调用示例中的Java SDK、调用说明。 直连数据源和SQL模式的API支持将试运行结果回填为API示例值。 在API查看、编辑、测试、调试、文档页面可快捷切换其他API。 支持批量发布API,不包括逻辑表API。
| |
标签工厂 | 离线标签新增支持计算标签,基于已有标签通过关系操作、函数构建标签计算逻辑等可视化方式将标签计算结果作为标签值。 规则组合离线标签支持再次嵌套组合标签,进行标签的二次加工。 标签离线服务支持导出行为偏好标签及其关联的码表信息。 标签及群组离线服务支持批量导出所选中的标签值或代码描述。 离线数据集的调度依赖支持调整依赖策略,如依赖全部实例、最后一个实例等。 标签码表的码值数量拓展至500。
| |
跨租户发布 | 跨租户发布引用了Python三方包的任务时,可使用与目标租户相同Python版本、相同module名称的三方包,可省去Python三方包的跨租户发布。 | 无 |
元数据共享模型 | dim_dataphin_table表新增如下字段:last_access_time(最近访问时间)、tag_list(资产清单中配置的资产标签)、storage_format(表存储格式)、favorites_count(收藏次数)、pv_count(浏览次数),并提供表访问次数的统计方式说明,便于获取更多资产详情信息用于统计分析。 新增上架资产信息表dim_dataphin_mdc_list_object,包括已上架状态的资产的来源、归属目录、资产标签、可见范围等信息。 新增全量准资产对象表dim_dataphin_mdc_object、全量准资产字段表dim_dataphin_mdc_column,当前包括物理表、逻辑表和数据源表,可通过字段asset_sub_type查看资产的类型。
| |
OpenAPI | 新增GetDirectoryTree,支持获取实时任务存储目录 。 新增GetClusterQueueInfoByEnv,支持获取实时任务资源队列 。 新增GetQueueEngineVersionByEnv,支持获取实时任务引擎版本 。 新增CreateStreamBatchJobMapping,支持创建Flink SQL任务。 新增CreatePipelineNode,支持创建数据集成管道任务。 新增ListAuthorizedDataServiceApiDetails,用于查询应用已申请的API的具体字段列表。 新增ListSparkClient,用于获取指定项目下Spark客户端名称列表。
| OpenAPI列表 |