文档

功能更新动态(2024年)

更新时间:

本文将为您及时同步2024年的Dataphin(全托管版)发布信息。

2024年07月

对应发布的产品版本:V4.2

北京:2024年07月25日发布。

杭州、深圳:待发布

上海:待发布

功能名称

功能描述

相关文档

成员管理

新增元数据中心、资产目录相关功能权限的配置。

全局角色管理

数据源管理

自定义数据源支持重新上传Jar包和编辑数据源JSON。

资源调度

计算任务和集成任务的Dev项目支持配置任务在开发环境执行使用调度资源组,可用于当前任务的运行和预览。

离线研发

  • 数据库SQL任务新增支持Presto数据源。

  • 创建数据库SQL任务须指定Schema。

  • Basic环境下,支持将计算任务从回收站中恢复或彻底删除。

基础运维

项目级监控告警优化,支持分别针对调度周期为日/周/月的任务或小时/分钟的任务分别配置未完成告警的告警详情。

配置项目监控报警规则

离线集成

  • OpenGauss输出组件支持一键建表功能。

  • 关系型数据库管道任务支持将datetime类型字段作为切分键,以提高数据导入的并发量。

元数据中心

新增元数据中心功能模块,包括采集任务和采集实例管理、业务系统管理、元数据清单查看等功能。支持从各业务系统中抽取、加工、集中存储和管理元数据,以支持数据治理,并加强组织内部数据的组织、检索和分析能力。

待发布

资产清单

  • 支持在资产清单搜索框切换查看Dataphin资产和从数据源采集到的业务系统资产。

  • 支持在我的足迹查看最近浏览、最近收藏、最近使用的资产,您也可以前往个人数据中心查看全量收藏的资产。

  • Dataphin资产:即计算源表、指标、函数、项目、数据源、API等。

    • 指标列表新增数据板块/主题域视角导航,可快速切换查看不同范围的指标。

    • 逻辑表字段详情新增展示开发阶段配置的备注信息。

  • 业务系统资产:即从数据源采集到的资产。

    • 支持按照来源数据源和归属业务系统两个视角查看采集到的数据源表。

    • 支持按照来源数据源、Schema、所属业务系统等条件筛选数据源表。

    • 支持查看数据源表详情,包括数据源表属性、字段列表、血缘&影响、质量概况(仅生产表)等。

    • 支持查看DDL语句、生成select语句、反馈质量问题(仅生产表)、导出字段、申请数据源权限等快捷操作。

数据安全

  • 一级数据分类目录支持设置管理员及其包含的分类的详情管理权限,实现分类管理权限的下放以及分类配置信息的敏感保护。

  • 新增支持按照全部分类和指定目录下所有分类动态选择分类范围。

    • 全部分类:每次执行时将圈选的数据范围和全局数据分类进行匹配。

    • 指定目录下所有分类:选择分类目录后,每次执行时将动态获取归属该目录及其子目录下的最新数据分类进行匹配,新增分类后无需手动修改识别规则。

资产目录

新增资产目录功能,为已上架的资产提供一个数据查找、消费权限申请、资产详情查看的入口。

待发布

目录管理

原资产专题管理功能,支持设置多个专题,并为每个专题设置多级目录;可将资产手动上架到不同的资产目录,并配置展示名、查看权限等信息,以提升数据查找效率,降低数据理解成本,助力资产运营。

待发布

标签平台

  • 标签离线服务及群组离线服务优化:

    • 新增支持OpenGauss目标数据源,支持一键生成目标表以及导出代码名称和标签值。

    • 支持对运行中的离线服务进行补数据,默认补T-1的数据,确保离线服务新建后可立即执行。

  • 支持任务自动分类,任务管理更友好:

    • 支持按照任务的归属对象以及任务目的自动进行分类。

    • 当目录下任务数超出设定阈值后系统将自动扩展目录。

  • 标签码表能力补全,组合标签支持码表自动生成:

    • 组合标签可根据定义的分层信息自动生成码表。

    • 资产市场支持按照码表展示组合标签分布。

    • 离线服务导出组合标签时支持导出码表。

个人数据中心

  • 支持查看我在资产清单收藏的所有资产,包括数据表、API、指标和标准。

  • 支持查看我所负责的全量表资产。

查看及管理我负责的资产

跨租户发布

新增行为关系、行为偏好标签及行为统计标签跨租户发布。

管理标签待发布对象

启动维护/升级

跨租户发布期间,支持进行部分不影响生产环境数据的操作,包括:可访问运维发布分析资产清单权限管理模块,可提交开发项目下的集成任务和开发对象,但不支持发布操作。

维护/升级Dataphin

文件名规范

新增文件名规范功能,对于上传到Dataphin的文件进行文件名的前缀和后缀校验,只有同时符合前缀和后缀规范的文件才能上传成功。

待发布

2024年06月

对应发布的产品版本:V4.1

北京:2024年06月13日发布。

杭州、深圳:2024年06月20日发布。

上海:2024年06月23日发布。

功能名称

功能描述

相关文档

全局

  • 菜单导航优化:支持收藏菜单快捷定位、首页直接查看二级导航、顶部导航全新升级。

  • 全局视觉优化:除了数据开发及数据服务外,其他页面由传统的深色风格转变为了明亮的浅色主题。更轻盈的颜色搭配不仅可以减轻视觉疲劳,还可以引导使用者的注意力自然而然地集中到页面的主要内容,从而提升工作效率。

数据源管理

  • FTP数据源的认证方式选择FTP、FTPS时,支持配置PORT(主动模式)或PASV(被动模式)两种连接方式。

  • Elasticsearch数据源新增支持Elasticsearch 8.x版本。

  • Oracle数据源为Oracle 19c版本时,支持ZHS16GBK字符集。

  • DM数据源的连接方式为负载均衡时,支持配置多个IP地址。

离线集成

  • 离线整库迁移的来源数据源为MaxCompute时,分区过滤条件修改为非必填。

  • 关系型数据库输入输出组件支持配置批量读取条数。

  • DM输出组件支持一键生成目标表,包括目标表名、字段类型、精度。

  • 过滤组件新增支持NOT LIKE操作符。

  • 离线整库迁移圈选表优化:支持批量输入表名后精确匹配自动选中表或模糊匹配展示相关结果,以便批量选择。

离线研发

  • 代码搜索升级:

    • 代码搜索入口优化,在导航树、任务列表、全局搜索均增加代码搜索入口。

    • 支持跨项目(当前用户有权限的所有项目)搜索代码。

    • 代码搜索结果列表展示更多信息,支持筛选过滤。

  • 代码编辑器体验优化,鼠标悬停变量格式的项目名称展示表信息;支持展示变量格式的板块名称或项目名称下该板块或该项目下的表名称;支持展示逻辑表关联维度角色名称;选中SQL计算任务的项目名称或板块名称提示,系统将其自动设为变量格式。

  • 新增merge partition语法。

  • 系统提供内建公共日历函数:

    • dpc_last_workday:获取指定日期的最近工作日的日期。

    • dpc_last_label_date:获取指定日期的最近包含某标签的日期。

    • dpc_is_labelled:指定日期是否有某标签。

    • dpc_is_workday:指定日期是否是工作日。

    • dpc_last_workdays:获取指定日期的最近N个工作日的日期列表。

    • dpc_workdays:获取指定日期范围内的工作日日期列表。

    • dpc_last_labelled:获取指定日期的最近N个包含某标签的日期列表。

    • dpc_labelled:获取指定日期范围内包含某标签的日期列表。

    • dpc_last_multi_labelled:获取指定日期的最近N个包含某一组标签的日期列表。

    • dpc_multi_labelled:获取指定日期范围内包含某一组标签的日期列表。

建模研发

支持级联修改下游逻辑表、原子指标、业务限定、派生指标的主题域。

基础运维

  • 补数据任务定时运行时间支持选择月末

  • 支持配置实例及运行日志的保留时长,支持配置是否定期清除补数据工作流及手动实例。

数据标准

  • 新增标准变更订阅功能:

    • 支持订阅标准生效、失效、下线、删除四种状态的变更,并通过站内信、邮件发送变更通知。

    • 支持在数据标准列表中批量订阅变更通知。

    • 支持在个人数据中心-我负责的数据表列表批量选中表后直接订阅相关字段映射到的数据标准变更通知。

    • 支持在告警中心查看推送记录。

  • 标准模板新增支持配置标准编码生成规则:

    • 支持根据自增序列、固定字符串、所属标准集编码组合生成规则,引用该标准模板生成的标准编码规则,更具规范性,降低手动配置成本和管理成本。

    • 启用编码规则后支持手动输入编码,可开启针对自定义的编码值按照编码规则强校验的约束,在保证配置灵活性的同时也能提升规范性。

    • 修改编码规则配置后,可批量按照最新规则订正已经根据历史规则生成的标准编码,并可查看批量订正记录。

  • 标准属性配置优化:

    • 范围值类型的属性(包括值域属性)支持设置暂不指定范围类型,可在创建数据标准时再指定,基于同一模板创建的数据标准可选择不同的范围类型,具备更大灵活性。

    • 支持引用系统属性,包括数据板块、项目、用户、用户组四种系统属性,以增强标准模块的全局适配性,便于统一管理。

  • 数据标准批量导入导出优化:

    • 针对批量导入数据标准的新增场景,支持提前配置所属标准集、标准负责人、生效时间信息并生成模板的预填内容,降低填写成本。

    • 支持选择标准编码值的导入方式,包括以配置文件为准导入、基于编码规则重新生成(忽略导入文件中的编码值配置)2种导入方式。

    • 不限制单次导出数据标准的数量,可在批量操作记录-批量导出记录中下载生成的导出文件。

  • 数据标准的关联码表新增关联属性信息,该码表根据标准属性值进行关联。

数据质量

  • 批量创建质量规则优化:

    • 字段列表新增展示字段类型信息。

    • 支持按照资源负责人筛选监控对象范围。

    • 支持批量配置监控对象质量负责人和监控规则的质量分权重

  • 自定义SQL规则的质量监控粒度支持指定为全表或具体字段

  • 质量规则模板支持配置set参数,以解决系统生成的SQL部分场景(如数据量较大)下执行报错的问题;配置后,引用该模板创建的质量规则均生效。

数据服务

  • 基于服务单元-向导模式创建的API支持设置排序。

  • API请求方式为List时,支持设置结果分页。开启后,需指定排序字段,以确保返回查询结果的稳定;关闭后,您可以在调试或测试页面设置分页参数。

  • 在提交基于服务单元创建的API时,校验引用字段的服务单元是否存在,提交时,校验引用字段在生产环境是否存在;在提交基于数据源创建的API时,校验引用的字段在开发数据源中是否存在,提交时,校验引用字段在生产数据源中是否存在。

标签工厂

  • 离线数据集发布后,支持数据集修改指标以及变更已存在指标的来源字段。

  • 离线数据集支持一键补下游标签数据。

  • 离线数据集、行为关系支持根据公共日历、跨节点参数作为条件参数进行调度。

  • 行为关系支持主体属性、行为属性、对象属性配置码表,配置后可用于行为偏好标签及行为统计表的加工和预览。

  • 表单加工的数据集加工时间窗口及日期筛选条件支持公共日历筛选;行为偏好标签及统计标签加工时行为时间可基于公共日历进行筛选。

  • 支持标签离线服务、群组离线服务在计算源下一键建表。

  • 新增支持对已发布、已下线状态的标签离线服务、群组离线服务进行编辑,可切换输出表及输出标签等内容,编辑完成后支持重新发布。

  • 标签离线服务、群组离线服务导出标签时,若标签配置了码表,则支持选择是否导出代码描述,下游系统调用更便捷。

跨租户发布

  • 新增一键发布功能,系统将按照发布顺序逐一发布待发布对象。

  • 质量规则发布对象的对象详情和版本对比详情新增业务属性信息的展示。

2024年05月

对应发布的产品版本V4.0

深圳:2024年05月16日发布。

北京、杭州2024年05月21日发布。

上海2024年05月26日发布。

功能名称

功能描述

相关文档

标签售卖

标签支持增购标签数,不同标签工厂版本支持增购不同的标签数:

  • 试用版默认10个标签,不支持增购。

  • 基础版默认50个标签,不支持增购。

  • 标准版/高级版默认300个标签,支持增购500、700、1000、1500个标签。

自定义资源组

新增自定义资源组功能,支持将当前租户的调度资源按照比例划分为不同资源组,且资源组之间相互隔离互不影响,实现调度资源隔离;支持为任务配置不同的调度资源;支持在补数据等临时运维场景下指定单独的资源组。

全局角色管理

  • 支持通过自定义全局角色来管控用户访问的功能模块、某个模块下的功能以及模块中的查看与管理权限。

  • 支持开启、停用系统内置全局角色。

全局角色管理

Python三方包

支持通过Python镜像源在线安装Python Module。

数据源

  • 新增SelectDB数据源,支持应用于离线集成功能。

  • SAP Table数据源支持连接load balance地址。

离线集成

  • 将存储在计算引擎中的数据作为来源数据时支持展示数据分类分级信息。

  • 支持将离线管道切换为离线脚本模式或克隆为脚本模式,可以有效提高脚本模式的配置效率;支持将组件直接切换为脚本模式;切换为脚本模式后,不支持切回。

  • Elasticsearch输入组件支持使用索引别名读取文档。

  • MongoDB输入组件支持将Document与Array字段类型转为JSON格式输出。

  • FTP输入组件支持定时检查标记完成文件是否存在;支持按照指定字段长度切分字符。

  • FTP输出组件写入文件个数为单个文件且导出格式为zip时,支持配置是否压缩文件路径。

  • 集成组件优化:

    • 无法获取元数据的输出组件支持根据输入组件的字段信息自动生成字段。

    • 支持将常用的组件收藏置顶展示。

    • 支持通过常见别名搜索组件。

    • 离线集成任务列表新增下线操作。

    • 加密组件新增创建密钥的跳转入口。

    • 提示文案支持复制。

离线研发

  • 数据库SQL任务新增AnalyticDB for PostgreSQL数据源,支持数据源级别鉴权;支持执行存储过程。

  • 离线计算任务的相关功能支持展示该任务所依赖的全局变量、公共日历、资源和Python三方包依赖对象。

  • 离线物理表的相关任务功能支持查看读取了该表的任务。

  • 条件调度支持基于财务日历的财务月、财务周、财务日作为调度规则参数。

  • 离线物理表发布到生产环境时,MaxCompute数据表不校验生命周期是否与开发环境一致;外部表不校验路径是否与开发环境一致。

  • SQL查询结果展示优化,支持是否隐藏结果列;支持查看单行结果详情;支持按照语句切分查询日志;支持禁用结果复制。

  • MaxCompute新增支持split_size hint和compact语法;支持show create table <板块名.逻辑表名>show partitions <板块名.逻辑表名>语法。

建模研发

  • 创建或编辑逻辑表时,支持自定义修改系统默认生成的逻辑表名称,不强制与命名规范一致。

  • 支持配置维度逻辑表或事实逻辑表的计算逻辑与字段类型的一致性校验,或关闭强一致性校验。

  • 维度逻辑表和事实逻辑表支持在相关-下游依赖查看字段级下游依赖任务。

实时研发

  • 实时任务支持将数据写入OSS数据源。

  • Flink批任务支持配置实时实例运行失败后的重试次数和时间间隔。

  • 实时任务状态流转逻辑优化,确保任务不会出现死锁且无法操作的情况。

新建FLINK_SQL任务

基础运维

  • 补数据任务新增指定节点名称的节点选择方式,通过节点名称来指定补数据范围。

  • 补数据海量模式指定节点扩展至5000节点;列表模式支持按照节点类型筛选,并增加节点ID列。

  • 全局配置支持设置任务运行超时失败后是否自动重跑。

  • 逻辑表补数据功能优化,字段连带复杂性降低,性能提升。

资产目录

  • 字段列表优化,新增所属项目、所属表、所属表负责人筛选项。

  • 物理表存储类型增加内部表、外部表展示标识。

  • 资产详情页操作优化:

    • 查看DDL语句:新增支持查看在不同数据源下对应的DDL语句。用于在集成目标数据源快速创建与来源表相同结构的表等场景。

    • 生成select语句:支持配置是否自定义添加转义符。

数据标准

  • 新增标准文档功能:

    • 支持上传PDF、Doc、PPT、Excel等类型的文档。

    • 支持对文档进行分组管理。

    • 支持为数据标准配置关联标准文档。

  • 新增基于识别特征的智能推荐映射关系功能:

    • 识别特征可以同时用于智能推荐数据标准映射关系与字段的分类分级打标结果。特征扫描配置将同时影响标准模块的落标映射规则与安全模块的识别规则运行。

    • 新增按识别特征智能匹配映射方式,创建落标映射规则时,可基于识别特征定义和资产对象的内容及元数据值,智能推荐映射关系,以提升配置效率。

数据质量

  • 新增手动录入质量问题:

    • 支持在资产详情页或标签详情页,通过反馈质量问题入口反馈当前资产相关的质量问题,也可以在质量-治理工作台-问题清单列表,选择需要反馈问题的资产对象并描述问题详情。

    • 支持在问题清单列表中查看系统自动识别问题和手动录入问题,可统一发起整改并追踪整改流程。

    • 支持对质量问题进行分类,支持问题类型管理。

    • 整改流程新增操作记录展示。

  • 新增自定义质量规则属性功能,创建质量规则时,可根据属性定义填写对应的业务属性,丰富质量规则信息。

    • 支持配置属性名称、是否必填、填写方式、是否可搜索/筛选等信息,同时可选择是否启用该属性。

    • 支持批量修改质量规则的业务属性,可选择追加或覆盖已配置的属性值。

  • Dataphin表质量规则调度配置优化:

    • 选择定时调度时,可一键填入系统根据监控表的平均产出时间生成的推荐时间。

    • 选择固定任务触发调度时,可以一键填入系统根据监控表的血缘关系生成的推荐任务。

  • 质量告警时间及告警推送记录优化,告警原因新增告警规则名称的展示,便于快速定位问题。

标签工厂

  • 手动数据集、标签、群组、离线服务运行时支持指定业务日期。

  • 支持加工基于统计的偏好类标签,可将行为关系的某一属性作为统计对象,根据统计结果选择另一属性作为标签值。

  • 行为标签新增支持去重计数(count distinct)加工统计方式。

  • 离线视图升级为离线数据集,降低理解成本。

  • 资产市场体验优化:

    • 购物车增加批量添加按钮,并支持清空购物车。

    • 支持根据实体快捷筛选标签。

    • 标签及群组详情信息优化,详情页顶部展示重点信息。

跨租户发布

  • 新增全局变量、质量规则属性跨租户发布。

  • 在导入和导出发布包时,支持根据数据对象的ID或名称进行批量搜索。

2024年04月

对应发布的产品版本V3.14

北京2024年04月16日发布

深圳、杭州2024年04月18日发布

上海2024年04月21日发布

功能名称

功能描述

相关文档

表权限

  • 板块架构师和项目管理员支持批量授权或回收表权限。

  • 超级管理员、板块架构师、项目管理员支持对生产账号进行项目和板块级别的表授权和回收,授权后该生产账号将拥有该项目或板块下所有表的权限(包括后续新增的数据表)。

数据源权限

具有数据源执行权限的用户支持创建或运行基于该数据源的数据库SQL任务和分析该任务。

申请、续期和交还数据源权限

样式配置

支持页面水印设置功能,支持自定义页面水印内容及设置水印样式,包括字体大小、是否加粗、旋转角度、字体颜色、水印间距。

水印设置

任务中心

支持批量审批任务。

查看并处理任务

Python三方包

新增Python三方包全局管理功能,一次安装多次引用,提升Python任务开发效率。

安装Python Module

数据源

  • Kafka数据源支持在无认证或用户名+密码认证方式下,使用双向SSL加密。

  • 达梦数据源支持使用SSL加密。

离线集成

  • FTP输出组件优化:

    • 写入文件个数不与并发数强绑定,支持选择写入单个文件或生成多个文件。

    • 当加载策略选择覆盖数据或文件冲突报错时,单个文件不生成后缀;多个文件支持选择生成_0、_1、_2等序列后缀,或者生成UUID随机数后缀。

    • 当加载策略选择追加数据时,单个文件或多个文件均只会生成UUID随机数后缀。

    • 支持自定义标记完成文件内容;支持文件级与任务级标记完成文件。

    • 支持的文件级参数包括 $filename(文件名)、$filenamewithpath(带路径的文件名)、$filesize(文件大小)、$rowcount(文件数据行数)。

    • 支持使用全局参数、跨节点参数与管道参数进行调度。

  • MySQL、AnalyticDB for MySQL 3.0、TiDB输出组件部分字段支持on duplicate key update操作。

  • OSS、Amazon S3输出组件支持选择是否将字段名作为文件的首行内容输出。

  • 整库迁移选择每日同步模式时,支持创建并写入非分区表。

  • 整库迁移的来源数据源为FTP时,文件模板支持更多配置,并可以设置读取控制配置项,例如:

    {
     "textReaderConfig":{
     "caseSensitive":true,
     "useTextQualifier":false,
     "textQualifier":"\\",
     "trimWhitespace":false
     }
    }。
  • Greenplum输出组件支持一键建表功能。

  • 整库迁移新增PostgreSQL作为来源数据库。

离线研发

  • 支持基于MySQL、Oracle数据源的数据库SQL任务调度和即席查询。

  • 代码编辑器中的运行功能支持根据默认保存的参数运行,以减少调试运行时的点击测试;新增设参运行功能,支持将参数重新设置后再运行。

建模研发

  • 逻辑表支持自定义分区字段的名称和日期分区字段的日期格式。

  • 汇总逻辑表支持设置set参数,针对该汇总逻辑表下的所有派生指标生效。

  • 支持单个派生指标独立配置调度周期和条件调度。

  • 逻辑表、原子指标、业务限定列表优化,展示更多信息,增加筛选项;逻辑表支持批量提交、批量修改运行参数、批量修改依赖等。

  • 原子指标、业务限定的英文名称配置项支持根据中文说明实时匹配数据标准中已配置的词根,您可以选择推荐的词根作为业务实体的英文名称。

实时研发

  • 实时任务支持引用全局变量以解决DDL语句中明文密码的问题。

  • 实时任务研发优化:

    • Flink计算源支持配置多级资源队列。

    • 实时任务详情与版本对比优化,支持对比两个历史版本。

    • 预编译、调试权限校验优化,支持一次性校验所有无权限的对象。

    • 任务提交时为您展示校验流程、校验项及校验结果。

新建FLINK_SQL任务

基础运维

  • 运维中心支持在DAG图上针对有操作权限的跨项目节点进行操作而无需切换项目。

  • 实时运维增加已完成运行状态。

  • 支持修改单个指标的运维负责人。

  • 刷新补数据实例列表不会自动收起已展开的补数据实例。

  • 实例统计页面中单击逻辑表展示的物化节点名称可跳转至对应的逻辑表节点。

  • 异常统计中不展示虚拟节点和逻辑表控制节点。

资产目录

资产专题目录支持按照目录名称排序;资产目录支持按照数据板块和主题域筛选物理表及字段。

数据标准

  • 新增码表目录功能,可对码表进行分类管理,最多创建不超过5层目录。

  • 码表列表支持编辑和查看两种展示模式,适配不同角色使用码表功能。

  • 支持基于Excel文件批量导入导出码表、词根。

  • 标准上线、下线审批配置升级:

    • 标准支持根据所属标准集的审批配置决定提交上线、下线时是否需要开启审批。开启后,可按照管理需求分别给提交上线、下线流程配置各自的审批模板。

    • 支持是否批量合并审批任务:

      • 合并后,审批任务时可选中多个标准合并成一个审批单,整体通过或驳回。

      • 拆分后,审批任务时每个标准分别生成一个审批单,可分别审批。

  • 数据标准批量操作优化,支持批量下线、批量删除操作;支持批量查看操作记录及操作详情,包括操作成功的对象列表、操作失败的对象列表及失败原因,以及跳过操作的对象列表及跳过原因。

  • 支持按照标准集目录查看标准集。

  • 支持批量导出Excel文件格式的映射关系。

数据质量

  • 质量监控告警配置升级:

    • 支持给不同的规则配置不同的告警方式以实现区分告警,告警范围包括所有规则、所有强规则、所有弱规则、自定义规则。

    • 支持设置告警生效策略,包括命中的第一条告警配置生效、所有告警配置均生效。

      • 命中的第一条告警配置生效:支持对已配置的告警进行排序,仅当规则命中第一条告警配置时才生效。

      • 所有告警配置均生效:当前告警配置列表中的告警对当前监控对象下的质量规则均生效。

  • 基于Excel文件批量导入质量规则操作反馈优化,支持选择重复记录是否需要导入。

数据安全

  • 识别规则新增基于血缘关系自动继承上游分类分级功能,同时结合默认脱敏策略,保障自动继承结果的数据可以命中脱敏算法,提升数据安全性;识别结果管理功能优化,修改分类分级可基于识别记录自动推荐。

  • 基于血缘关系自动继承支持识别规则运行和血缘关系更新两种继承场景;支持仅有一个继承结果和有多个继承结果两种继承规则。

  • 识别规则支持批量运行仅生效规则或全部规则;并可以选择是否触发自动继承任务。

  • 识别结果详情优化,可快捷查看生效识别结果以及其他识别结果;支持指定某个识别记录为生效结果、一键修改识别结果为系统推荐的结果、针对仅有分级没有分类的生效结果(血缘自动继承所得)可直接指定数据分类快捷操作。

  • 识别结果列表优化,支持展示识别方式;支持编辑识别结果。

  • 数据分类支持在生效模型列表快捷引用预置模型,同时在预置模型列表支持快捷选择分类分级添加至生效模型。

  • Excel批量上传识别结果操作反馈优化,拆分线上重复记录列表和导入校验异常的列表,支持选择重复记录是否需要导入。

  • 安全算法新增FPE加解密算法。

标签工厂

  • 离线视图新增码表配置功能,在创建离线标签时,对应的标签字段自动匹配该码表,在下游使用该标签进行筛选时展示码值名称。

  • 行为关系的行为时间支持选择日期、文本数据类型,当数据类型为文本时,支持设置日期格式用于转换。

  • 标签详情的使用统计支持根据时间范围筛选调用情况,并展示调用应用TOP10的应用,并且对调用情况的指标统计进行了优化:

    • 总调用应用数:指定的统计时间范围内,在线调用应用与离线调用应用的去重统计值。

    • 在线调用应用数:指定的统计时间范围内,调用过该标签的实时查询的应用数,不包括市场标签测试的调用。

    • 离线调用应用数:指定的统计时间范围内,引用该标签的标签离线服务的应用的去重统计值。

    • 累计调用次数:指定的统计时间范围内,在线调用及离线调用的总次数。

    • 在线调用次数:指定的统计时间范围内,应用对该标签的实时查询次数。

    • 离线调用次数:指定的统计时间范围内,引用该标签的标签离线服务的成功实例数。

    • 引用次数:统计发布版本的标签被其他标签直接引用的次数。

  • 数值型标签的分布统计在未设置自定义区间时,可根据标签值的分布自动推算标签分布组数和区间。

  • 组合标签、离线服务的列表优化,增加全部页签,可快速选中所有可用标签;在已申请标签列表中,选择父类目时展示该类目及其下级类目的所有标签。

  • 支持根据标签的描述搜索标签;支持不依赖项目创建标签市场;支持项目绑定多个市场(公开市场及私有市场)。

分析平台

Notebook和SQL查询支持访问MySQL、Oracle数据库中的数据;支持运行SQL脚本。

数据服务

  • 直连数据源模式的SQL模式配置项支持在SQL函数里设置请求参数。

  • 当SQL模式选择高级SQL,解析SQL参数时,支持选择是否保留手动配置的参数信息。

  • 支持指定API缓存数据的存储位置,包括Dataphin的系统Redis、指定的Redis数据源实例或应用内存储。

跨租户发布

  • 数据标准相关对象支持查看详情和版本对比操作,包括标准集目录、标准集、公共标准属性、词根、码表等相关对象。

  • 新增码表目录、公共日历、离线代码模板、离线物理表对象的跨租户发布。

  • 标签对象导出发布包时支持将视图的依赖关系一并导出,发布时支持自动授权。

2024年02月

对应发布的产品版本:V3.13

北京、深圳:2024年02月27日发布。

杭州:2024年02月29日发布。

上海:2024年03月03日发布。

功能名称

功能描述

相关文档

答疑支持

新增工单答疑支持功能,您可以在页面右下角快捷呼出答疑机器人或提交工单联系我们,以解答您的疑问。

答疑支持

计算设置

未创建过计算源时,支持修改计算设置部分的MaxCompute的地域和网络连接方式。

设置Dataphin实例的计算引擎为MaxCompute

研发平台设置

  • 新增排他编辑锁配置,开启后,开发平台编辑任务时,不支持被其他用户抢锁,可由锁定人主动释放锁,从而减少被抢锁后已修改内容丢失或覆盖更新的问题产生。

  • 支持的研发对象范围包括:集成任务、实时计算任务、离线计算任务、逻辑表、离线物理表、实时表、实时/离线计算模板、即席查询。

研发平台设置

项目角色管理

自定义项目角色中,拥有成员管理-编辑权限的角色不可将用户配置成为项目管理员(包括自己)。

项目角色管理

成员管理

一键转交负责人优化,支持转交数据表负责人、任务的运维负责人和监控负责人。

数据源管理

  • 新增Amazon S3、TDengine数据源。

  • Oracle数据源支持的版本,新增Oracle11g、Oracle12c、Oracle18c、Oracle19c、Oracle21c、Oracle23c。

  • 部分数据源支持配置数据库连接超时、重试次数,此外,离线集成任务中也可单独配置任务级别的重试次数。对离线集成任务和全域数据质量监控规则运行生效,支持的数据源包括,MySQL、PolarDB-X(原DRDS)、PolarDB、AnalyticDB for MySQL 2.0、AnalyticDB for MySQL 3.0、TiDB、GoldenDB、StarRocks、PostgreSQL、AnalyticDB for PostgreSQL、GreenPlum、Microsoft SQL Server、Vertica、SAP HANA、IBM DB2、OceanBase、ClickHouse、达梦、KingbaseES、GBase 8a、Doris。

  • MySQL数据源新增RDS MySQL版本,使用MySQL 8.0的驱动,支持OpenSSL 3.0,且兼容MySQL5.6、MySQL5.7版本。

  • ElasticSearch数据源支持HTTPS协议的URL。

离线集成

  • 新增集成任务列表,支持批量提交、批量下线删除、批量调度/依赖/参数/运行配置、批量移动目录、批量转交开发负责人、批量获取锁操作。

  • 新增Amazon S3输入输出组件。

  • 脚本模式输入输出组件字符数扩增至50万。

  • 过滤组件新增START WITH和END WITH函数。

  • 支持将Timestamp数据类型字段写入Lindorm(宽表)。

  • 支持配置每个任务运行时针对每个数据库的连接,离线集成任务中配置的重试次数优先级高于数据源的配置。

计算任务

  • 计算任务提交时,针对循环依赖的错误提示信息进行优化,展示具体的节点名称、节点ID、依赖路径。

  • MaxCompute新增支持pivot和unpivot语法。

  • 离线计算任务和集成任务在无下游依赖时支持编辑节点输出名称。

新建MAX_COMPUTE_SQL任务

离线计算模板

  • 新增SPARK_JAR_ON_MAX_COMPUTE、MAX_COMPUTE_MR节点类型的计算模板。

  • 基于计算模板创建任务时,默认引用模板的最新版本;若后续模板发生变更,SQL计算任务需要手动修改引用的模板版本;其他任务将自动切换引用最新版本,无需手动修改。

新建离线计算模板

即席查询

即席查询、分析查询结果展示优化,Bigint、Decimal类型的数据支持展示完整的精度,其中,Bigint支持的范围为-263+1~263-1。

查询并下载数据

资源

支持在.py类型的资源文件中使用from dataphin import odps/hive,使用条件和限制与在Python任务中一致;使用该语句,支持读取逻辑表和进行表鉴权。

上传资源及引用

离线研发和建模研发

  • 开发环境下,逻辑表数据预览变量参数值优化,本地变量的参数值默认填充参数配置中已配置的值,日期时间全局变量取当前最新值。

  • 开发环境下运行计算任务以及对逻辑表进行数据预览时,参数运行值自动填充逻辑优化,修改运行使用的参数值后,将保留该运行值直到被再次修改或缓存被清除;新增快捷恢复默认值操作。

  • 新增跨节点参数功能,Python、SQL、Shell计算任务支持给一个或多个变量参数赋值,并将该参数及其赋值直接传递给依赖该任务的直接下游节点,以支持上下游任务之间的变量值传递。

  • 支持所有类型的离线任务(计算任务、集成任务、逻辑表)接收直接上游任务的跨节点输出参数,可将跨节点参数值赋值本地变量,基于跨节点条件调度决定当前节点的调度方式和调度时间。

  • 原子指标计算逻辑重复性校验优化,当计算表达式一致但事件时间(即统计周期标识)不同时,视为计算逻辑不重复。

  • 逻辑表和指标创建成功后,默认授予逻辑表及指标创建人查询权限。

实时研发

  • Flink CDC抽取MongoDB时支持过滤delete操作。

  • Flink SQL任务支持通过数据源编码的方式直接访问Oracle、StarRocks数据源中的表。

  • Flink SQL任务支持引用示例代码快速创建任务,内置CDC实时数据同步入数据湖或数仓,Kafka实时数据处理等示例代码。

  • 新增实时计算任务列表,支持批量提交、批量下线删除、批量运行配置、批量移动目录、批量转交开发负责人、批量获取锁操作。

  • 实时计算任务支持为set参数配置空值。

新建FLINK_SQL任务

发布中心

  • 发布审批任务详情中,新增任务所属项目、数据板块、开发负责人、运维负责人等信息。

  • 发布校验详情中,权限校验失败,点击申请权限跳转至权限申请页面时仅自动勾选需要申请的字段和对应的权限类型。

管理发布任务

基础运维

  • 补数据实例汇总运行状态统计忽略暂停状态,若有暂停实例,将单独提示。

  • 周期实例/补数据实例支持按照实例名称(仅周期实例支持)、定时运行时间、开始运行时间、结束运行时间、运行时长进行排序。

  • 支持批量运行手动任务。

  • 支持在运维列表批量修改逻辑表的运维负责人和优先级。

  • 周期实例和补数据实例展开DAG图时列表缩略信息优化,支持展示实例名称、业务日期、运行状态。

  • 项目计算源为Flink VVP项目时,支持配置实时任务监控告警。

数据标准

  • 落标映射规则的映射关系配置新增支持属于(in)运算符。

  • 数据标准支持配置关联标准;支持根据属性值配置自动识别关联码表;支持在标准属性抽屉中查看关联信息,并可一键跳转查看关联对象详情。

  • 标准模板属性支持排序;支持预览新建标准时的属性样式。

数据质量

  • 新增知识库功能,支持记录配置问题和解决方案,便于了解该知识相关的质量问题、相关政策文件等,并可关联质量规则。

  • Dataphin数据表、指标支持通过自定义SQL的方式创建自定义统计指标、数据详情的校验模板。

  • 支持通过Excel的方式批量上传基于自定义SQL模板创建的质量监控规则。

  • 及时性-时间函数比较模板,针对时间差配置项,支持选择校验字段-比较字段、比较字段-校验字段两种字段校验方式,以满足灵活配置的场景。

  • 质量监控规则校验不通过而运行失败的实例,支持在运维中心的实例运行日志中查看失败原因;涉及统计指标比较类的规则,日志中直接展示统计指标值与配置校验通过的指标要求。

  • 数据表监控对象的调度配置中,校验分区升级为校验范围,和规则配置中的过滤条件一起生效,实现对校验数据的过滤,并作为质量报告的最小查看粒度。可配置校验范围的对象由原本的分区表扩大为所有数据表。

  • 质量告警信息优化,支持发送质量规则校验的核心指标数据:

    • 关键指标:支持发送规则的校验配置与实际校验结果。

    • 完整指标:支持发送规则的校验配置中涉及的具体指标值。

  • 校验记录的校验结果中的统计指标展示优化,展示顺序为:本次的校验指标>实际计算得到的统计指标值>计算统计指标的中间过程指标,便于更直观地分析质量问题。

数据安全

  • 数据分类内置模型新增金融行业分类分级模板。

  • 支持配置调度手动扫描规则增加预计扫描表数量的提示。

  • 支持批量重置识别规则打标结果。

标签工厂

  • 标签相关对象的备注及描述信息字符扩展至1000个。

  • 规则组合标签的分层值支持输入特殊字符。

分析平台-手工表

  • 新增手工表功能:

    • 支持通过导入DDL语句或导入已有表的方式快捷创建手工表。

    • 支持在线编辑手工表数据,可以选择是否将变更内容同步到计算引擎并保存。

    • 支持将手工表分享给其他用户;支持查看手工表发布的历史版本。

  • Notebook大纲支持跳转到对应单元。

数据服务

  • 高级SQL支持以传参的方式动态指定SQL语句查询返回的字段,参数名需以var_cols开头(格式:var_cols_xxx),并将参数写在查询语句内,调用API时,传入需要查询的字段即可,实现动态返回查询结果。

  • 高级SQL需要定义完整的API返回参数,如果查询语句中包含返回字段,但API的返回参数未配置,则调用报错。

  • API测试页面支持查看API的脚本内容,有助于检查测试的结果是否符合脚本的查询逻辑。

  • API变更后发布流程优化:

    • 当API没有绑定应用且没有被组合API引用时,可直接变更API的参数配置并重新发布。

    • 支持在项目级别配置API发布管控机制。当项目下的API变更发布后对下游使用产生影响时,可以根据影响范围以及严重程度选择不同的管控机制。

    • 当API已绑定应用或已经被组合API引用时,重新发布时需要与线上生效版本对比,如果存在以下情况:新增了必填请求参数、删减了请求参数、删减了返回参数、或者变更了请求参数的数据类型,将根据API所在项目配置的API发布管控机制判断是否允许发布。

  • 基于服务单元创建的API,不限数据源类型,支持最大返回条数为1万条。

  • 新增TDengine数据源类型的直连API,当使用基础SQL模式时,解析出的请求参数限制为必填项;分页和排序的公共请求参数无法使用,需要在SQL中定义分页和排序。

  • 直连数据源创建API支持自定义配置复杂SQL,重新解析后,决定是否要自动覆盖手动的配置信息。

  • 服务调用示例下载和SDK下载,代码注释提示优化。

跨租户发布

  • 跨租户发布设置配置升级:

    • Dev-Prod开发项目支持校验个人权限、提交时忽略个人权限校验2种方式;生产项目权限支持校验生产账号权限、自动赋权2种方式。

    • 发布校验支持校验操作人权限和忽略权限校验2种方式。

    • 业务对象上线、设置了发布审批或开启代码审核的研发对象,忽略审批直接发布。

    • 数据标准发布支持忽略审批和遵循标准集配置2种方式。

  • 数据标准相关对象支持跨租户发布,包括标准模板、标准集、标准集目录、公共标准属性(自定义)、数据标准、落标映射规则、映射关系、码表、词根;如果数据标准监控配置引用了质量监控模板或安全分类分级,也可一并导出。

  • 资产安全相关对象支持跨租户发布,包括:密钥、识别结果、数据分类与分级(包括识别特征)。

  • 跨租户发布导出集成任务,若引用了加解密组件,密钥的依赖关系将一并导出,并在发布时根据依赖关系进行密钥填充和替换。

  • 逻辑表任务导出时,可同步导出字段与数据标准的关联关系。