功能更新动态(2024年)--独享模式(半托管)

本文将为您及时同步2024年的Dataphin(半托管版)发布信息。

202411

对应发布的产品版本:V4.4

发布时间:20241115日发布

发布地域:北京上海深圳杭州、新加坡、法兰克福

功能名称

功能描述

相关文档

登录安全设置

支持配置密码有效期和登录失败策略;支持在登录界面记住密码以及美化登录界面。

登录安全设置

消息渠道

新增接收人用户名元数据${receiver_name}

消息渠道概述

样式配置

支持上传深色主题和浅色主题的租户Logo。

导航设置

数据源管理

  • Kudu数据源支持上传Hadoop配置文件。

  • AnalyticDB for PostgreSQL数据源JDBC URL支持高可用IP配置。

  • FTP数据源的sftp协议密钥文件增加提示仅支持pem文件格式。

  • Hive数据源的版本为CDP7.x Hive3.1.3时,支持配置Hudi数据湖格式。

注册集群

新增注册集群功能,Dataphin支持注册外部集群,从而解决跨Region数据传输以及资源隔离等问题。

自定义资源组

新增自定义资源组功能,支持将当前租户的调度资源按照比例划分为不同资源组,且资源组之间相互隔离互不影响,实现调度资源隔离;支持为任务配置不同的调度资源;支持在补数据等临时运维场景下指定单独的资源组。

自定义调度资源组概述

公告设置

每个租户都支持配置系统公告,并仅对当前租户可见;元仓租户下的系统公告可对所有租户可见。

创建及管理系统公告

计算源

  • 新增管理Hadoop集群功能,支持批量管理Hadoop类型的计算源;支持查看集群的历史版本,下载集群的配置文件;支持引用集群和单独配置两种配置方式。

  • Hadoop计算源和Hadoop集群中keytab文件的下载权限限制取消。

离线集成

  • 当加密/解密组件的加密算法选择SM4时,支持输出目标表为AnalyticDB for PostgreSQL表,系统将写入的数据按照AnalyticDB for PostgreSQL的密钥值自动进行加解密处理。

  • 新增性能诊断功能,可通过读写时长、耗时操作及内存垃圾回收(GC)时长,帮助您排查导致集成任务运行缓慢的原因。

  • 新增运行记录列表功能,可管理当前项目下的所有离线集成任务的运行记录。

  • PostgreSQL、Oracle、Hologres、SAP HANA、Microsoft SQL Server输入组件支持跨Schema读取数据,数据源登记时不限制必须填写Schema。

  • SelectDB、StarRocks、Doris输出组件支持JSON数据格式。

  • 过滤组件的脚本模式支持括号及嵌套条件配置。

  • API输入组件优化,Body支持JSON输入以及接口返回结果支持Object读取。

  • 集成任务列表数据源筛选支持非结构化数据源,如FTP等,表搜索新增支持topic和索引名称。

  • 集成任务提交和发布时,支持数据源表在Prod环境下的存在性检测以及在Dev-Prod环境下表一致性检测。

  • 离线整库迁移任务目标源为Hive,支持配置目标表是否为外部表。

离线研发

  • 支持配置执行Drop table语句后是否自动生成表删除待发布项;支持删除表删除待发布项。

  • SQL查询的运行结果支持全选表头,并可以定位某一列。

  • 支持草稿态的周期任务与手动任务相互转换。

  • 任务发布时统一为全局视图,选择待发布项发布时,系统会自动提示发布依赖。

  • MaxCompute新增自定义窗口语法window;ArgoDB新增添加范围分区语法add partition values

  • 数据库SQL新增支持数据源,包括PostgreSQL、StarRocks、ClickHouse。

  • SQL计算任务支持按照资源组划分运行容器。

实时集成

  • 实时集成目标端支持Hudi,可选择配置了Hudi表格式的Hive(当前仅CDP7.x Hive3.1.3支持Hudi)数据源作为目标端时,支持Hudi建表及数据写入。

  • 实时集成目标端支持新建Delta表以及选择已有Delta表进行数据写入。

  • 支持配置VVP checkpoint参数,包括checkpoint时间周期以及checkpoint最小间隔时间。

实时集成数据至Hive

实时研发

  • Flink VVP实时研发自定义资源配置支持批量配置并发数以及支持修改Chaining策略。

  • 优化Flink VVP计算源Access Key校验报错信息,报错信息更明确。

  • Flink SQL任务基于数据源开发表新增支持SelectDB、Hudi(Hudi-0.15.0)数据源。

Ververica Flink实时任务资源自定义

标签工厂

新增标签工厂功能模块,包括离线标签、离线视图、行为关系、标签市场、标签离线服务和应用管理功能。

标签工厂概述

数据标准

  • 新增标准模板库,系统内置基于国标文件等梳理的常用码表,包括人、经济、区域属性相关的码表。

  • 批量导入的模板中,数据分类列的解析逻辑优化,以正斜线(/)开头或者直接以分类目录名称开头,都可以正常解析。

资源治理

  • 支持在治理分析页面快捷跳转查看存储/计算项目的未处理的治理项。

  • 我的治理列表批量操作可选中对象数据量扩展至50。

元数据中心

新增元数据中心功能模块,包括采集任务和采集实例管理、业务系统管理、元数据清单查看等功能。支持从各业务系统中抽取、加工、集中存储和管理元数据,以支持数据治理,并加强组织内部数据的组织、检索和分析能力。

元数据中心概述

资产目录

新增资产目录功能模块,为已上架的资产提供一个数据查找、申请消费权限、资产详情查看的入口。

查看资产目录

资产消费

新增资产消费功能模块,支持为已上架的资产(Dataphin表)申请消费权限;支持创建自助取数、仪表板分析任务;支持在我可用的列表查看有权限的数据资产。

查看及管理我可用的资产

目录管理

原资产专题管理功能,支持设置多个专题,并为每个专题设置多级目录;可将资产手动上架到不同的资产目录,并配置展示名、查看权限等信息,以提升数据查找效率,降低数据理解成本,助力资产运营。

目录管理

数据服务

  • 新增API克隆操作,以克隆方式新建API。

  • API发布、删除权限指引优化,服务项目发布管控配置项更新,更易理解;API发布或删除时,支持快速回收API权限或快捷解除组合API的依赖。

  • API开发列表优化,支持API最新版本已发布时,编辑API自动新增版本;新增版本系统支持生成并填充版本号。

  • 新增服务日志功能,支持根据特定筛选条件查看调用明细日志;支持查看不超过90天的统计日志。

  • 支持设置调用明细日志及调用统计的存储位置,系统将根据存储总条数上限及存储时长自动删除日志数据。

  • 支持在API文档中使用百炼大模型的自定义插件格式及标准OpenAPI规范格式进行下载及查看。

  • 网络配置优化,支持Dataphin私有网关,也可在初始化阶段设置为阿里云API网关。

跨租户发布

新增支持跨节点参数跨租户发布。

管理研发待发布对象

用户中心

支持下载Dataphin JDBC Driver文件。

Dataphin OpenAPI AccessKey管理

OpenAPI

新增ListDataSourceDependency,支持查询数据源变更影响的集成任务及数据库SQL任务。

OpenAPI列表

202410

对应发布的产品版本:V4.3

发布时间:20241029日发布

发布地域:北京上海深圳杭州、新加坡、法兰克福

功能名称

功能描述

相关文档

审计日志设置

支持将审计日志定时同步至指定的数据源,支持MySQL、Oracle、PostgreSQL、Microsoft SQL Server数据源。

审计日志设置

权限管理

新增支持申请与授权MySQLOracle数据源类型的数据源表权限。

数据源管理

  • 数据源连接测试新增成功有风险状态,该状态下的数据源仅可用于数据服务、数据质量功能,不可用于数据开发和数据集成功能。

  • ElasticSearch数据源新增支持HTTPS连接;支持自签名证书。

项目

删除项目时可在列表中查看该项目的依赖对象,以便快速进行解绑。

删除项目

离线集成

  • PolarDB-X输入组件新增支持QuerySQL模式。

  • KingbaseES数据库字符串使用concat函数替换||

  • PostgreSQL输出组件支持一键建表功能。

  • ElasticSearch输入组件支持复用已有索引结构。

  • StarRocks、SelectDB、Doris输出组件优化,写入分隔符时,支持使用少见的分隔符以降低业务数据冲突。

  • 本地文件输入组件支持输入中文字符及特殊字符的中文名,并提高了上传文件及解析文件大小的限制。

  • 离线整库迁移任务支持通过灵活配置的方式自定义任务名前后缀;整库迁移的目录新增支持新建、移动操作。

  • 组件校验优化,支持多输入源输入结构不一致校验,避免导致数据脏乱错位。

实时集成

新增实时集成功能,将来源端数据源中整库或全部表的数据变化实时集成至目标端数据源中,实现来源端数据源与目标端数据源实时的保持数据同步。

实时集成概述

离线研发

  • 计算任务属性新增CPU/内存资源用量配置;支持配置任务的优先级。

  • 离线物理表发布时,同一个表的待发布项系统会自动合并发布。

  • MAXCOMPUTE_SQL任务和逻辑表任务引用了账号密码全局变量的SQLlogview URL将被隐藏。

  • 账号密码全局变量支持配置开发运行是否自动填充变量值。

  • 支持hivec.reopen()可以重新创建hive连接。

  • 内置Python三方包新增支持3.11版本。

实时研发

SAP HANA元表新增支持blob、clob、nclob字段类型;支持选择单个更新时间字段(timestamp类型),或者填写HANA SQL时间字符串表达式,例如concat(column_date,column_time)

创建及管理元表

资产清单

  • 支持筛选直接血缘,或在血缘图中对直接血缘进行标识。根据不同的语法操作展示直接血缘关联血缘

    • 直接血缘是通过select、insert等语句读取或写入的上下游相关资产。

    • 关联血缘是通过join、group by、where条件等方式引用的相关资产。

  • 数据表、指标、字段列表支持从项目视角(即数据存储角度)查看资产,以便快速查找所需资产。

数据标准

  • 标准目录、码表目录、标准文档目录扩展至10级。

  • 编辑标准时支持切换标准模板,若属性的名称、字段类型、填写方式一致,系统会自动填充对应的属性值。

  • 支持单次导出100个标准模板下的标准。

  • 标准模板的公共系统属性支持修改是否必填,系统将根据是否有属性值自动生成对应的落标监控项。

数据质量

  • 新增导出质量规则功能,支持根据导出全部、按搜索及筛选条件导出、导出选中规则三种导出方式导出监控对象或单个监控对象,并可查看导出记录。

  • 异常归档表可区分当前生效的自定义归档表和其他表,支持将其他表一键指定为生效表;支持快捷复制自定义归档表的DDL语句。

  • 质量规则列表优化,除了全域表质量规则,其他的质量规则描述信息和中文名每日定时更新;新增规则ID展示,可用于OpenAPI或元数据共享模型相关表的查询。

数据服务

  • 新增SQL注入校验配置,支持在API调用时对输入的SQL语句进行校验,提高语句的准确性。

  • 直连数据源模式新增支持SelectDB数据源。

  • Dataphin数据源功能不再输出,仅已创建的用户可继续使用,可使用Dataphin JDBC Driver替代访问Dataphin数据源。

跨租户发布

导入发布包支持创建离线物理表的DDL替换规则,如可替换外部表location URL中的host、存储类型等。

导入发布包

元数据共享模式

  • 新增数据标准码表信息表:dim_dataphin_datastandard_lookup_table,包括码表名称、编码、ID、码值代码名称、码表归属目录等信息。

  • 质量规则表dim_dataphin_dp_quality_rule新增数据源相关字段data_source_id、data_source_name、data_source_type和业务属性信息字段attribute_config。

  • 质量规则校验表fct_dataphin_dp_quality_rule_task_di:校验汇总统计指标数据全部存储在execute_context字段中, 同一条规则执行记录可能存在多个校验汇总统计指标;补充汇总统计指标名称枚举说明。

  • 修改数据标准表dim_dataphin_datastandard_standard,新增码表和标准的关联关系展示。

  • 新增标准落标规则与资产映射表dim_dataphin_datastandard_rule_asset_relation。

Dataphin JDBC

支持通过Dataphin JDBC访问Dataphin中配置的Oracle、MySQL数据源,并支持权限校验(执行表级查询权限)。

通过JDBC连接Dataphin

OpenAPI

  • 新增UpdateGlobalVariable,可修改全局变量的变量值,暂不支持修改日期时间变量的取值。

  • 新增ListPythonModule可,列举已安装的Python三方包。

  • CreateBatchTaskFile、SubmitBatchTaskFileV2支持指定引用的Python三方包。

  • 新增GetGroupPageApiCode,支持查看服务调用代码。

  • 修改CreatePipeline,管道任务创建接口支持依赖周期配置。

  • 资产清单OpenAPI:修改GetTableLineage、GetTableColumnLineage,支持选择是否返回在资产清单中不存在的表。

  • 数据标准OpenAPI:

    • 新增CreateMapping,支持创建标准映射关系。

    • 新增DeleteValidMapping,支持删除有效映射关系。

    • 新增ChangeValidMappingtoInvalid,支持将有效映射关系置为无效映射。

    • 新增CancelnvalidMapping,支持取消无效映射。

    • 新增UnpublishStandardbyID,支持下线标准。

    • 新增DeleteStandardbyID,支持删除标准。

    • 新增DeleteWordRootbyID,支持删除词根。

    • 新增DeleteLookupTabelbyID,支持删除码表。

    • 新增UpdateStandardSet,支持更新标准集。

    • 新增DeleteStandardSet,支持删除标准集。

    • 新增UpdateStandardTemplate,支持更新标准模板。

  • 数据安全OpenAPI:

    • 新增createClassifyCatalog,支持创建数据分类目录。

    • 新增updateClassifyCatalog,支持更新数据分类目录。

    • 新增RemoveClassifyCatalog,支持删除数据分类目录。

    • 新增CreateSecurityClassify,支持创建数据分类。

    • 新增UpdateSecurityClassify,支持更新数据分类。

    • 新增RemoveSecurityClassify,支持删除数据分类。

    • 新增CreateSecurityLevel,支持创建数据分级。

    • 新增UpdateSecurityLevel,支持更新数据分级。

    • 新增RemoveSecurityLevel,支持删除数据分级。

OpenAPI列表

202408

对应发布的产品版本:V4.2

发布时间:20240726日发布

发布地域:北京上海深圳杭州、新加坡

功能名称

功能描述

相关文档

数据源管理

  • MySQL、Oracle、PostgreSQL、Microsoft SQL Server类型数据源,支持测试当前数据源与外部调度集群的连通性,支持保存与Dataphin实例网络不通但与外部调度集群网络相通的数据源。

  • 自定义数据源支持重新上传Jar包和编辑数据源JSON。

离线研发

  • 数据库SQL任务新增支持Presto数据源。

  • 创建数据库SQL任务须指定Schema。

  • HIVE_SQL任务中使用临时表(temporary table),在资产清单中可以生成跳过临时表的血缘关系;所有类型的SQL任务先创建表,后删除表,也可以跳过该表生成的血缘关系。

  • Basic环境下,支持将计算任务从回收站中恢复或彻底删除。

基础运维

项目级监控告警优化,支持分别针对调度周期为日/周/月的任务或小时/分钟的任务分别配置未完成告警的告警详情。

配置项目监控报警规则

离线集成

  • OpenGauss输出组件支持一键建表功能。

  • 关系型数据库管道任务支持将datetime类型字段作为切分键,以提高数据导入的并发量。

  • Hive输出组件新增支持NULL值替换。

资产清单

  • 支持在资产清单搜索框切换查看Dataphin资产和从数据源采集到的业务系统资产。

  • 支持在我的足迹查看最近浏览、最近收藏、最近使用的资产,您也可以前往个人数据中心查看全量收藏的资产。

  • Dataphin资产:即计算源表、指标、函数、项目、数据源、API等。

    • 指标列表新增数据板块/主题域视角导航,可快速切换查看不同范围的指标。

    • 逻辑表字段详情新增展示开发阶段配置的备注信息。

  • 业务系统资产:即从数据源采集到的资产。

    • 支持按照来源数据源和归属业务系统两个视角查看采集到的数据源表。

    • 支持按照来源数据源、Schema、所属业务系统等条件筛选数据源表。

    • 支持查看数据源表详情,包括数据源表属性、字段列表、血缘&影响、质量概况(仅生产表)等。

    • 支持查看DDL语句、生成select语句、反馈质量问题(仅生产表)、导出字段、申请数据源权限等快捷操作。

数据安全

  • 一级数据分类目录支持设置管理员及其包含的分类的详情管理权限,实现分类管理权限的下放以及分类配置信息的敏感保护。

  • 新增支持按照全部分类和指定目录下所有分类动态选择分类范围。

    • 全部分类:每次执行时将圈选的数据范围和全局数据分类进行匹配。

    • 指定目录下所有分类:选择分类目录后,每次执行时将动态获取归属该目录及其子目录下的最新数据分类进行匹配,新增分类后无需手动修改识别规则。

数据服务

新增数据服务功能模块,包括市场与调用、服务开发、服务运维、服务管理功能,数据服务是基于Dataphin建设数据中台的最后一步,作为统一的数据服务出口,实现了数据的统一市场化管理,有效地降低数据开放门槛的同时,保障了数据开放的安全。

数据服务概述

个人数据中心

  • 支持查看我在资产清单收藏的所有资产,包括数据表、API、指标和标准。

  • 支持查看我所负责的全量表资产。

查看及管理我负责的资产

启动维护/升级

跨租户发布期间,支持进行部分不影响生产环境数据的操作,包括:可访问运维发布分析资产清单权限管理模块,可提交开发项目下的集成任务和开发对象,但不支持发布操作。

维护/升级Dataphin

文件名规范

新增文件名规范功能,对于上传到Dataphin的文件进行文件名的前缀和后缀校验,只有同时符合前缀和后缀规范的文件才能上传成功。

管理文件名规范

202404

对应发布的产品版本:V4.1

发布时间:20240402日发布

发布地域:北京上海深圳杭州

名称

功能描述

相关文档

全局

  • 菜单导航优化:支持收藏菜单快捷定位、首页直接查看二级导航、顶部导航全新升级。

  • 全局视觉优化:除了数据开发及数据服务外,其他页面由传统的深色风格转变为了明亮的浅色主题。更轻盈的颜色搭配不仅可以减轻视觉疲劳,还可以引导使用者的注意力自然而然地集中到页面的主要内容,从而提升工作效率。

权限管理

权限功能是系统安全的重要基础保障,作为企业数据中台建设和数字化转型的核心产品,Dataphin提供了完整的权限体系,来帮助您构建完善的安全权限系统,保障数据安全。支持申请数据表、数据源、变量、密钥、API的权限,并可以对数据表或数据源的权限操作、资产权限进行审计。

用户角色和权限

数据源管理

数据源可用于读取原始数据和写入数据建设。Dataphin集成了丰富的数据引擎,支持大数据存储数据源、消息队列数据源、关系型数据源、文件数据源、NoSQL数据源、半结构化存储数据源及自定义数据源。

跨租户发布

跨租户发布数据用于迁移租户间的数据,以满足不同数据的应用场景,帮助企业实现数据应用价值最大化。支持导出发布包、导入发布包、管理全局、数仓规划、数据架构、编码研发、数据标准、数据质量、数据安全待发布对象。

跨租户发布概述

数仓规划

数仓规划是数据建设中的蓝图,在开始数据开发前,需要完成数据仓库的规划,数仓规划配置包括:创建数据板块和主题域、计算源、项目及项目中的成员。

数仓规划概述

离线集成

数据集成是Dataphin的能力模块,是简单高效的数据同步平台,提供强大的数据预处理能力、丰富的异构数据源之间数据高速稳定的同步能力,为数据中台的建设打好坚实的数据基座。

数据集成概述

数据建设

数据建设支持离线代码研发、实时代码研发、智能建模研发、流批一体研发等多种研发方式,其中首创的智能建模研发模式通过设计即开发的数据模型设计+自动化代码开发提供高效的数据研发生产力。

数据开发概述

分析平台

分析平台是一个面向个人视角,快速便捷的数据平台。

  • 支持创建Notebook任务,记录您的分析思路与过程,包括代码、运行结果与分析结论等。

  • 支持创建SQL查询并编写SQL代码查询所需的数据,对查询结果进行可视化统计与分析。

  • 支持手工创建与编辑生产环境的数据表。

分析平台概述

基础运维

数据集成、数据开发功能开发的任务提交或发布后,可以对提交的任务和生成的实例进行多方位的运维管理,包括任务运维、实例运维等。

运维中心概述

智能运维

智能运维包含基线监控及限流配置功能,为业务数据产出时效性及系统稳定性提供保障,同时能降低人工运维成本,提升运维效率。

基线监控概述

资产清单

资产清单为您展示不同资产对象类型的元数据信息,同时支持搜索、访问及收藏等功能,为您提供高效、快捷、准确的数据查找入口。

资产清单概述

数据标准

数据标准是为业务、技术和管理提供服务和支持。包括数据标准、标准集、落标映射规则、标准代码(码表)、词根等功能。

数据标准概述

数据质量

数据质量提供全链路的资产质量方案,包括质量大盘、配置质量规则、查看校验记录、质量监控、智能报警、查看质量报告、质量治理等功能。

资产质量概述

数据安全

数据安全支持定义数据的业务分类和安全等级,并构建敏感数据识别规则,同时支持设置敏感数据脱敏规则,以保障数据资产的安全性。

资产安全概述

资源治理

资源治理支持您进行数据使用消耗分析,从全局视角把控计算和存储成本,提升资源使用效率,构建可管控的数据资产健康体系。

资源治理概述

告警中心

您可以查看Dataphin中不同模块的告警信息,包括离线计算、实时计算、基线监控、数据质量等功能。

告警事件

通知中心

您可以查看Dataphin中不同消息来源的信息,包括权限管理、流程控制、资源治理、资源用量、租户管理、数据标准、治理工作台、系统消息等。

查看系统消息

OpenAPI

OpenAPI能够提供灵活多样的功能,是所有模块都要提供的标准能力。

OpenAPI列表

元数据共享模型

元仓共享模型是基于Dataphin内部的系统元数据表,通过任务加工生成的可以被稳定、标准化访问的开放元数据表,可降低对系统元数据表的依赖,提升系统稳定性。基于开放的元数据信息,您可以结合业务场景进行二次开发,以更好地满足对下游业务的适配性;也可以对数仓开发任务等进行更细粒度的盘点和分析,以辅助决策优化。

元数据仓库共享模型概述