文档

文档更新动态(2024年)

更新时间:

本文为您介绍2024年Dataphin版本文档更新动态,方便您及时了解Dataphin版本新增特性及功能变更。

2024年04月

更新时间:2024年04月15日

对应发布的版本:V3.14

文档节点

描述

更新、新增

相关文档

管理中心-权限管理

  • 板块架构师和项目管理员支持批量授权或回收表权限。

  • 超级管理员、板块架构师、项目管理员支持对生产账号进行项目和板块级别的表授权和回收,授权后该生产账号将拥有该项目或板块下所有表的权限(包括后续新增的数据表)。

更新说明

任务中心

支持批量审批任务。

更新说明

查看并处理任务

管理中心-系统设置-样式配置

支持页面水印设置功能,支持自定义页面水印内容及设置水印样式,包括字体大小、是否加粗、旋转角度、字体颜色、水印间距。

新增说明

水印设置

管理中心-系统设置-三方库管理

新增Python三方包全局管理功能,一次安装多次引用,提升Python任务开发效率。

新增说明

安装及管理Python三方包

管理中心-数据源管理

  • Kafka数据源支持在无认证或用户名+密码认证方式下,使用双向SSL加密。

  • 达梦数据源支持使用SSL加密。

更新说明

数据引入-离线集成-离线单条管道-组件库开发

  • FTP输出组件优化:

    • 写入文件个数不与并发数强绑定,支持选择写入单个文件或生成多个文件。

    • 当加载策略选择覆盖数据或文件冲突报错时,单个文件不生成后缀;多个文件支持选择生成_0、_1、_2等序列后缀,或者生成UUID随机数后缀。

    • 当加载策略选择追加数据时,单个文件或多个文件均只会生成UUID随机数后缀。

    • 支持自定义标记完成文件内容;支持文件级与任务级标记完成文件。

    • 支持的文件级参数包括 $filename(文件名)、$filenamewithpath(带路径的文件名)、$filesize(文件大小)、$rowcount(文件数据行数)。

    • 支持使用全局参数、跨节点参数与管道参数进行调度。

  • MySQL、AnalyticDB for MySQL 3.0、TiDB输出组件部分字段支持on duplicate key update操作。

  • OSS、Amazon S3输出组件支持选择是否将字段名作为文件的首行内容输出。

  • 整库迁移选择每日同步模式时,支持创建并写入非分区表。

  • 整库迁移的来源数据源为FTP时,文件模板支持更多配置,并可以设置读取控制配置项,例如:

    {
     "textReaderConfig":{
     "caseSensitive":true,
     "useTextQualifier":false,
     "textQualifier":"\\",
     "trimWhitespace":false
     }
    }。
  • Greenplum输出组件支持一键建表功能。

  • 整库迁移新增PostgreSQL作为来源数据库。

更新说明

数据开发-编码研发-离线任务开发

  • 支持基于MySQL、Oracle数据源的数据库SQL任务调度和即席查询。

  • 代码编辑器中的运行功能支持根据默认保存的参数运行,以减少调试运行时的点击测试;新增设参运行功能,支持将参数重新设置后再运行。

更新说明

数据开发-规范建模

  • 逻辑表支持自定义分区字段的名称和日期分区字段的日期格式。

  • 汇总逻辑表支持设置set参数,针对该汇总逻辑表下的所有派生指标生效。

  • 支持单个派生指标独立配置调度周期和条件调度。

  • 逻辑表、原子指标、业务限定列表优化,展示更多信息,增加筛选项;逻辑表支持批量提交、批量修改运行参数、批量修改依赖等。

  • 原子指标、业务限定的英文名称配置项支持根据中文说明实时匹配数据标准中已配置的词根,您可以选择推荐的词根作为业务实体的英文名称。

更新说明

数据开发-编码研发

  • 实时任务支持引用全局变量以解决DDL语句中明文密码的问题。

  • 实时任务研发优化:

    • Flink计算源支持配置多级资源队列。

    • 实时任务详情与版本对比优化,支持对比两个历史版本。

    • 预编译、调试权限校验优化,支持一次性校验所有无权限对象。

    • 任务提交时为您展示校验流程、校验项及校验结果。

更新说明

建FLINK_SQL任务

发布与运维-运维中心-运维概览/任务运维

  • 运维中心支持在DAG图上针对有操作权限的跨项目节点进行操作而无需切换项目。

  • 实时运维增加已完成运行状态。

  • 支持修改单个指标的运维负责人。

  • 刷新补数据实例列表不会自动收起已展开的补数据实例。

  • 实例统计页面中单击逻辑表展示的物化节点名称可跳转至对应的逻辑表节点。

  • 异常统计中不展示虚拟节点和逻辑表控制节点。

更新说明

资产全景及目录-资产详情/资产专题

资产专题目录支持按照目录名称排序;资产目录支持按照数据板块和主题域筛选物理表及字段。

更新说明

数据标准-数据标准/落地评估/平台管理

  • 新增码表目录功能,可对码表进行分类管理,最多创建不超过5层目录。

  • 码表列表支持编辑和查看两种展示模式,适配不同角色使用码表功能。

  • 支持基于Excel文件批量导入导出码表、词根。

  • 标准上线、下线审批配置升级:

    • 标准支持根据所属标准集的审批配置决定提交上线、下线时是否需要开启审批。开启后,可按照管理需求分别给提交上线、下线流程配置各自的审批模板。

    • 支持是否批量合并审批任务:

      • 合并后,审批任务时可选中多个标准合并成一个审批单,整体通过或驳回。

      • 拆分后,审批任务时每个标准分别生成一个审批单,可分别审批。

  • 数据标准批量操作优化,支持批量下线、批量删除操作;支持批量查看操作记录及操作详情,包括操作成功的对象列表、操作失败的对象列表及失败原因,以及跳过操作的对象列表及跳过原因。

  • 支持按照标准集目录查看标准集。

  • 支持批量导出Excel文件格式的映射关系。

更新说明

资产质量-质量监控-质量规则

  • 质量监控告警配置升级:

    • 支持给不同的规则配置不同的告警方式以实现区分告警,告警范围包括所有规则、所有强规则、所有弱规则、自定义规则。

    • 支持设置告警生效策略,包括命中的第一条告警配置生效、所有告警配置均生效。

      • 命中的第一条告警配置生效:支持对已配置的告警进行排序,仅当规则命中第一条告警配置时才生效。

      • 所有告警配置均生效:当前告警配置列表中的告警对当前监控对象下的质量规则均生效。

  • 基于Excel文件批量导入质量规则操作反馈优化,支持选择重复记录是否需要导入。

更新说明

资产安全-敏感数据识别

  • 识别规则新增基于血缘关系自动继承上游分类分级功能,同时结合默认脱敏策略,保障自动继承结果的数据可以命中脱敏算法,提升数据安全性;识别结果管理功能优化,修改分类分级可基于识别记录自动推荐。

  • 基于血缘关系自动继承支持识别规则运行和血缘关系更新两种继承场景;支持仅有一个继承结果和有多个继承结果两种继承规则。

  • 识别规则支持批量运行仅生效规则或全部规则;并可以选择是否触发自动继承任务。

  • 识别结果详情优化,可快捷查看生效识别结果以及其他识别结果;支持指定某个识别记录为生效结果、一键修改识别结果为系统推荐的结果、针对仅有分级没有分类的生效结果(血缘自动继承所得)可直接指定数据分类快捷操作。

  • 识别结果列表优化,支持展示识别方式;支持编辑识别结果。

  • 数据分类支持在生效模型列表快捷引用预置模型,同时在预置模型列表支持快捷选择分类分级添加至生效模型。

  • Excel批量上传识别结果操作反馈优化,拆分线上重复记录列表和导入校验异常的列表,支持选择重复记录是否需要导入。

  • 安全算法新增FPE加解密算法。

更新说明

标签工厂-数据准备/资产市场

  • 离线视图新增码表配置功能,在创建离线标签时,对应的标签字段自动匹配该码表,在下游使用该标签进行筛选时展示码值名称。

  • 行为关系的行为时间支持选择日期、文本数据类型,当数据类型为文本时,支持设置日期格式用于转换。

  • 标签详情的使用统计支持根据时间范围筛选调用情况,并展示调用应用TOP10的应用,并且对调用情况的指标统计进行了优化:

    • 总调用应用数:指定的统计时间范围内,在线调用应用与离线调用应用的去重统计值。

    • 在线调用应用数:指定的统计时间范围内,调用过该标签的实时查询的应用数,不包括市场标签测试的调用。

    • 离线调用应用数:指定的统计时间范围内,引用该标签的标签离线服务的应用的去重统计值。

    • 累计调用次数:指定的统计时间范围内,在线调用及离线调用的总次数。

    • 在线调用次数:指定的统计时间范围内,应用对该标签的实时查询次数。

    • 离线调用次数:指定的统计时间范围内,引用该标签的标签离线服务的成功实例数。

    • 引用次数:统计发布版本的标签被其他标签直接引用的次数。

  • 数值型标签的分布统计在未设置自定义区间时,可根据标签值的分布自动推算标签分布组数和区间。

  • 组合标签、离线服务的列表优化,增加全部页签,可快速选中所有可用标签;在已申请标签列表中,选择父类目时展示该类目及其下级类目的所有标签。

  • 支持根据标签的描述搜索标签;支持不依赖项目创建标签市场;支持项目绑定多个市场(公开市场及私有市场)。

更新说明

分析平台-基于分析平台创建SQL查询/基于分析平台创建NoteBook

Notebook和SQL查询支持访问MySQL、Oracle数据库中的数据;支持运行SQL脚本。

更新说明

数据服务-服务管理/服务开发

  • 直连数据源模式的SQL模式配置项支持在SQL函数里设置请求参数。

  • 当SQL模式选择高级SQL,解析SQL参数时,支持选择是否保留手动配置的参数信息。

  • 支持指定API缓存数据的存储位置,包括Dataphin的系统Redis、指定的Redis数据源实例或应用内存储。

更新说明

管理中心-跨租户发布-待发布对象

  • 数据标准相关对象支持查看详情和版本对比操作,包括标准集目录、标准集、公共标准属性、词根、码表等相关对象。

  • 新增码表目录、公共日历、离线代码模板、离线物理表对象的跨租户发布。

  • 标签对象导出发布包时支持将视图的依赖关系一并导出,发布时支持自动授权。

更新说明

2024年02月

更新时间:2024年02月27日

对应发布的版本:V3.13

文档节点

描述

更新、新增

相关文档

管理中心-系统设置-计算设置

未创建过计算源时,支持修改计算设置部分的MaxCompute的地域和网络连接方式。

更新说明

设置Dataphin实例的计算引擎为MaxCompute

管理中心-研发平台

  • 新增排他编辑锁配置,开启后,开发平台编辑任务时,不支持被其他用户抢锁,可由锁定人主动释放锁,从而减少被抢锁后已修改内容丢失或覆盖更新的问题的产生。

  • 支持的研发对象范围包括:集成任务、实时计算任务、离线计算任务、逻辑表、离线物理表、实时表、实时/离线计算模板、即席查询。

新增说明

研发平台设置

管理中心-成员管理-项目角色管理

自定义项目角色中,拥有成员管理-编辑权限的角色不可将用户配置成为项目管理员(包括自己)。

更新说明

项目角色管理

成员管理

一键转交负责人优化,支持转交数据表负责人、任务的运维负责人和监控负责人。

更新说明

管理中心-数据源管理

  • 新增Amazon S3、TDengine数据源。

  • Oracle数据源支持的版本,新增Oracle11g、Oracle12c、Oracle18c、Oracle19c、Oracle21c、Oracle23c。

  • 部分数据源支持配置数据库连接超时、重试次数,此外,离线集成任务中也可以单独配置任务级别的重试次数。对离线集成任务和全域数据质量监控规则运行生效,支持的数据源包括MySQL、PolarDB-X(原DRDS)、PolarDB、AnalyticDB for MySQL 2.0、AnalyticDB for MySQL 3.0、TiDB、GoldenDB、StarRocks、PostgreSQL、AnalyticDB for PostgreSQL、GreenPlum、Microsoft SQL Server、Vertica、SAP HANA、IBM DB2、OceanBase、ClickHouse、达梦、KingbaseES、GBase 8a、Doris。

  • MySQL数据源新增RDS MySQL版本,使用MySQL 8.0的驱动,支持OpenSSL 3.0,且兼容MySQL5.6、MySQL5.7版本。

  • ElasticSearch数据源支持HTTPS协议的URL。

更新说明

数据引入-离线集成-离线单条管道-组件库开发

  • 新增集成任务列表,支持批量提交、批量下线删除、批量调度/依赖/参数/运行配置、批量移动目录、批量转交开发负责人、批量获取锁操作。

  • 新增Amazon S3输入输出组件。

  • 脚本模式输入输出组件字符数扩增至50万。

  • 过滤组件新增START WITH和END WITH函数。

  • 支持将Timestamp数据类型字段写入Lindorm(宽表)。

  • 支持配置每个任务运行时针对每个数据库的连接,离线集成任务中配置的重试次数优先级高于数据源的配置。

更新说明

数据开发-编码研发-离线任务开发

  • 计算任务提交时,针对循环依赖的错误提示信息进行优化,展示具体的节点名称、节点ID、依赖路径。

  • MaxCompute新增支持pivot和unpivot语法。

  • 离线计算任务和集成任务在无下游依赖时支持编辑节点输出名称。

更新说明

新建MAX_COMPUTE_SQL任务

数据开发-编码研发-计算模板

  • 新增SPARK_JAR_ON_MAX_COMPUTE、MAX_COMPUTE_MR节点类型的计算模板。

  • 基于计算模板创建任务时,默认引用模板最新版本;若后续模板发生变更,SQL计算任务需手动修改引用的模板版本;其他任务将自动切换引用最新版本,无需手动修改。

新增说明

新建离线计算模板

数据开发-编码研发-数据查询及管理

即席查询、分析查询结果展示优化,Bigint、Decimal类型的数据支持展示完整的精度,其中,Bigint支持的范围为-263+1~263-1。

更新说明

查询并下载数据

数据开发-编码研发

支持在.py类型的资源文件中使用from dataphin import odps/hive,使用条件和限制与在Python任务中一致;使用该语句,支持读取逻辑表和进行表鉴权。

更新说明

上传资源及引用

数据开发-规范建模/编码研发

  • 开发环境下,逻辑表数据预览变量参数值优化,本地变量的参数值默认填充参数配置中已配置的值,日期时间全局变量取当前最新值。

  • 开发环境下运行计算任务以及对逻辑表进行数据预览时,参数运行值自动填充逻辑优化,修改运行使用的参数值后,将保留该运行值直到被再次修改或缓存被清除;新增快捷恢复默认值操作。

  • 新增跨节点参数功能,Python、SQL、Shell计算任务支持给一个或多个变量参数赋值,并将该参数及其赋值直接传递给依赖该任务的直接下游节点,以支持上下游任务之间的变量值传递。

  • 支持所有类型的离线任务(计算任务、集成任务、逻辑表)接收直接上游任务的跨节点输出参数,可将跨节点参数值赋值本地变量,基于跨节点条件调度决定当前节点的调度方式和调度时间。

  • 原子指标计算逻辑重复性校验优化,当计算表达式一致但事件时间(即统计周期标识)不同时,视为计算逻辑不重复。

  • 逻辑表和指标创建成功后,默认授予逻辑表及指标创建人的查询权限。

更新说明

数据开发-编码研发

  • Flink CDC抽取MongoDB时支持过滤delete操作。

  • Flink SQL任务支持通过数据源编码的方式直接访问Oracle、StarRocks数据源中的表。

  • Flink SQL任务支持引用示例代码快速创建任务,内置CDC实时数据同步入数据湖或数仓,Kafka实时数据处理等示例代码。

  • 新增实时计算任务列表,支持批量提交、批量下线删除、批量运行配置、批量移动目录、批量转交开发负责人、批量获取锁操作。

  • 实时计算任务支持为set参数配置空值。

更新说明

新建FLINK_SQL任务

发布与运维-发布中心

  • 发布审批任务详情中,新增任务所属项目、数据板块、开发负责人、运维负责人等信息。

  • 发布校验详情中,权限校验失败,点击申请权限跳转至权限申请页面时仅自动勾选需要申请的字段和对应的权限类型。

更新说明

管理发布任务

发布与运维-运维中心-实例运维-周期实例/补数据实例

  • 补数据实例汇总运行状态统计忽略暂停状态,若有暂停实例,将单独提示。

  • 周期实例/补数据实例支持按照实例名称(仅周期实例支持)、定时运行时间、开始运行时间、结束运行时间、运行时长进行排序。

  • 支持批量运行手动任务。

  • 支持在运维列表批量修改逻辑表的运维负责人和优先级。

  • 周期实例和补数据实例展开DAG图时列表缩略信息优化,支持展示实例名称、业务日期、运行状态。

  • 项目计算源为Flink VVP项目时,支持配置实时任务监控告警。

更新说明

数据标准-数据标准/落地评估/平台管理

  • 落标映射规则的映射关系配置新增支持属于(in)运算符。

  • 数据标准支持配置关联标准;支持根据属性值配置自动识别关联码表;支持在标准属性抽屉中查看关联信息,并可一键跳转查看关联对象详情。

  • 标准模板属性支持排序;支持预览新建标准时的属性样式。

更新说明

资产质量-质量治理

新增知识库功能,支持记录配置问题和解决方案,便于了解该知识相关的质量问题、相关政策文件等,并可关联质量规则。

新增说明

新建及管理知识库

资产质量-质量监控-校验记录/质量规则

  • Dataphin数据表、指标支持通过自定义SQL的方式创建自定义统计指标、数据详情的校验模板。

  • 支持通过Excel的方式批量上传基于自定义SQL模板创建的质量监控规则。

  • 及时性-时间函数比较模板,针对时间差配置项,支持选择校验字段-比较字段、比较字段-校验字段两种字段校验方式,以满足灵活配置的场景。

  • 质量监控规则校验不通过而运行失败的实例,支持在运维中心的实例运行日志中查看失败原因;涉及统计指标比较类的规则,日志中直接展示统计指标值与配置校验通过的指标要求。

  • 数据表监控对象的调度配置中,校验分区升级为校验范围,和规则配置中的过滤条件一起生效,实现对校验数据的过滤,并作为质量报告的最小查看粒度。可配置校验范围的对象由原本的分区表扩大为所有数据表。

  • 质量告警信息优化,支持发送质量规则校验的核心指标数据:

    • 关键指标:支持发送规则的校验配置与实际校验结果。

    • 完整指标:支持发送规则的校验配置中涉及的具体指标值。

  • 校验记录的校验结果中的统计指标展示优化,展示顺序为:本次的校验指标>实际计算得到的统计指标值>计算统计指标的中间过程指标,便于更直观地分析质量问题。

更新说明

资产安全-敏感数据识别-识别结果/数据分类

  • 数据分类内置模型新增金融行业分类分级模板。

  • 支持配置调度手动扫描规则,增加预计扫描表数量的提示。

  • 支持批量重置识别规则打标结果。

更新说明

标签工厂-标签加工-离线标签

  • 标签相关对象的备注及描述信息字符扩展至1000个。

  • 规则组合标签的分层值支持输入特殊字符。

更新说明

分析平台-基于分析平台创建手工表

  • 新增手工表功能:

    • 支持通过导入DDL语句或导入已有表的方式快捷创建手工表。

    • 支持在线编辑手工表数据,可选择是否将变更内容同步到计算引擎并保存。

    • 支持将手工表分享给其他用户;支持查看手工表发布的历史版本。

  • Notebook大纲支持跳转到对应单元。

新增说明

数据服务-服务开发-创建API

  • 高级SQL支持以传参的方式动态指定SQL语句查询返回的字段,参数名需以var_cols开头(格式:var_cols_xxx),并将参数写在查询语句内,调用API时,传入需要查询的字段即可,实现动态返回查询结果。

  • 高级SQL需要定义完整的API返回参数,如果查询语句中包含返回字段,但API的返回参数未配置,则调用报错。

  • API测试页面支持查看API的脚本内容,便于检查测试的结果是否符合脚本的查询逻辑。

  • API变更后发布流程优化:

    • 当API没有绑定应用且没有被组合API引用时,可直接变更API的参数配置并重新发布。

    • 支持在项目级别配置API发布管控机制。当项目下的API变更发布后对下游使用产生影响时,可以根据影响范围以及严重程度选择不同的管控机制。

    • 当API已绑定应用或已经被组合API引用时,重新发布时需要与线上生效版本对比,如果存在以下情况:新增了必填请求参数、删减了请求参数、删减了返回参数、或者变更了请求参数的数据类型,将根据API所在项目配置的API发布管控机制判断是否允许发布。

  • 基于服务单元创建的API,不限数据源类型,支持最大返回条数为1万条。

  • 新增TDengine数据源类型的直连API,当使用基础SQL模式时,解析出的请求参数限制为必填项;分页和排序的公共请求参数无法使用,需要在SQL中定义分页和排序。

  • 直连数据源创建API支持自定义配置复杂SQL,重新解析后,决定是否要自动覆盖手动的配置信息。

  • 服务调用示例下载和SDK下载,代码注释提示优化。

更新说明

管理中心-跨租户发布-待发布对象

  • 跨租户发布设置配置升级:

    • Dev-Prod开发项目支持校验个人权限、提交时忽略个人权限校验2种方式;生产项目权限支持校验生产账号权限、自动赋权2种方式。

    • 发布校验支持校验操作人权限和忽略权限校验2种方式。

    • 业务对象上线、设置了发布审批或开启代码审核的研发对象忽略审批直接发布。

    • 数据标准发布支持忽略审批和遵循标准集配置2种方式。

  • 数据标准相关对象支持跨租户发布,包括标准模板、标准集、标准集目录、公共标准属性(自定义)、数据标准、落标映射规则、映射关系、码表、词根;如果数据标准监控配置引用了质量监控模板或安全分类分级,也可一并导出。

  • 资产安全相关对象支持跨租户发布,包括:密钥、识别结果、数据分类与分级(包括识别特征)。

  • 跨租户发布导出集成任务,若引用了加解密组件,密钥的依赖关系将一并导出,并在发布时根据依赖关系进行密钥填充和替换。

  • 逻辑表任务导出时,可同步导出字段与数据标准的关联关系。

更新说明

  • 本页导读 (0)
文档反馈