文档

功能更新动态(2023年)

更新时间:

本文将为您及时同步2023年的Dataphin版本发布信息。

2023年11月

对应发布的产品版本:V3.12

北京:2023年11月21日发布。

深圳、杭州:2023年11月23日发布。

上海:2024年01月14日发布。

功能名称

功能描述

相关文档

公共日历

新增财务日历模板,可选择455/544/454/4*13等财务日历,支持自定义周起始日、财务基准日等。

创建及管理公共日历

全局变量

全局变量支持选择多个代码审核人。

新建全局变量

统计周期

支持根据指定的来源财务日历创建财务统计周期。

新建统计周期

规范建模

  • 支持创建无指标汇总逻辑表。

  • 业务限定支持根据不同业务日期区间配置不同的计算逻辑。

计算任务

  • 支持完整数据下载,可下载查询语句的完整结果。下载审批支持通过管理中心-数据下载进行管控。

  • 提交SPARK_JAR_ON_MAX_COMPUTE计算任务时,系统自动去除从Windows操作系统下复制的代码的开头和末尾的控制字符(\r、\n)。

  • MaxCompute新增支持qualify和tablesample语法。

  • MaxCompute SQL支持表字段名称使用系统保留字和关键词,但不推荐使用系统保留字和关键词作为字段名称。

函数

新建函数支持选择archive资源(如.zip)。

函数操作

数据源

  • Protocol类型为SFTP的FTP数据源,支持用户名+密钥文件作为认证方式。

  • 新增Salesforce数据源,支持通过离线集成抽取数据。

  • OSS数据源支持配置目录,可支持账号只有目录级别数据权限的场景。

  • 支持配置数据源编码,配置数据源编码后,可在Flink SQL任务中通过数据源编码.table数据源编码.schema.table的格式引用MySQL、Hologres和MaxCompute数据源中的表。

安全设置

安全模式(是否允许跨项目建表、是否允许开发写生产)支持按照项目配置。

安全设置

离线集成

  • 离线集成任务运行日志支持展示可读性强,易于理解的结构化信息,包括:

    • 预览结果:在集成任务开发时,支持预览数据。

    • 日志信息:支持查看运行信息、通道信息、步骤度量和原始日志。

    • 异常信息:任务运行失败时支持查看运行报错日志中的错误信息,并结合智能报错诊断,提供清晰的错误原因与可尝试的解决方案。

    • 运行代码:支持查看本次运行的Dlink代码。

  • 新增提交校验详情:

    • 校验管道与组件配置是否完整。

    • 校验数据源、数据表、密钥、质量监控对象等权限。

    • 校验来源表和目标表的重复性。

  • 新增Salesforce输入组件,可离线抽取Salesforce实例中的数据。

  • 整库迁移新增FTP作为来源库,通过上传并解析Excel文件(.xlsx格式)的指定格式,批量创建FTP文件同步任务。

  • FTP输入组件支持通过指定来源文件中的起始字符和结束字符的位置来添加需输出的字段。

  • SQL Server输入组件支持Hint语法。

  • OSS输入与输出组件功能优化,支持读取Excel文件及支持配置文件前缀冲突处理策略等。

实时研发

  • 实时任务研发体验流程优化:

    • Flink SQL任务支持通过数据源编码的方式访问MySQL、Hologres和MaxCompute数据源中的表。

    • 元表、镜像表在开发时支持指定表负责人,提交发布后可在资产侧修改。

  • 新增实时任务迁移工具,支持将实时任务从Flink VVP平台一键迁移至Dataphin。

调度配置

  • 支持设置不依赖corn表达式的固定间隔时间的调度。

  • 开放跨调度周期依赖设置:

    • 依赖周期支持选择本周期(当日)、上周期(前1日)、前N日、最近24小时。

    • 依赖策略支持选择全部实例、第一个实例、最后一个实例、最近一个实例。

基础运维

  • 支持小时/分钟周期调度任务未完成告警配置。

  • 实时实例启动优化:

    • 支持实时实例停止时选择保留当前状态停止或无状态停止。

    • 支持实时任务或实时实例启动时选择无状态启动或从最新状态启动。

智能运维

支持配置可管理基线监控任务的账号。

新建基线监控

资产目录

  • 新增资产目录配置中心,支持专题分组管理和数据探查配置(需开通质量模块才可使用该功能)。

    • 专题分组管理支持统一管理已创建的专题分组,修改分组基本信息并可快捷跳转至专题广场查看某个专题分组下的所有专题。

    • 数据探查配置支持统一配置开启自动数据探查的物理表和逻辑表范围;支持配置数据探查任务的并发运行数、单个探查任务的运行超时的时间和探查记录保留时间。

  • 资产目录功能优化:

    • 专题详情支持编辑态和查看态两种模式。

    • 物理表支持按照数据板块和主题域筛选。

    • 资产详情页面新增查看其他资产的搜索入口。

    • 分区表预览功能优化,默认查询最新有数据的分区,但是部分场景下受引擎和分区类型限制无法获取有数据的最新分区值。在这种情况下,默认查询最新分区(可能无结果数据)。

数据探查

新增数据探查功能(需开通质量模块才可使用该功能),支持针对物理表、物理视图、逻辑表配置自动探查和手动探查任务。

  • 支持配置探查数据范围、探查频率(仅自动探查需要配置)、探查字段范围、探查场景(空值统计、字段值分布、唯一值统计,受数据类型限制)及探查结果查看权限。

  • 支持预览生成的探查SQL。

  • 支持查看探查记录及对应的探查日志,可一键快速终止正在运行中的探查任务;可查看每条探查记录对应的探查配置并基于已有配置快速发起新的探查。

  • 针对探查成功的记录,支持查看探查报告,包括:探查配置概览、已探查的每个字段每种场景的探查结果卡片。

数据标准

  • 标准集用于定义标准的管理属性(如查看权限、审批模板),以便对数据标准进行更精准的管控。

  • 标准模板用于定义创建数据标准时需要填写的属性信息,以便对数据标准进行规范化定义。

  • 标准模板支持定义基于该模板创建的数据标准应该遵循的统一规范和约束,即定义标准属性。标准属性主要包括业务属性、技术属性、管理属性等。

  • 数据标准批量操作优化,支持跨标准集批量导入、导出数据标准;支持查看批量导入记录;支持批量提交上线数据标准。

数据质量

  • 质量报告支持选择全表分区。

  • 两表字段统计值一致性比较支持选择Left Join、Right Join、Inner Join、Full Join等多种关联方式。

  • 支持为Dataphin表和全域数据表监控对象配置打分权重以及为Dataphin表(自定义配置)和全域数据表的质量规则配置打分权重。

数据安全

  • 安全扫描适配分区字段不是ds或者无分区的情况,采用全表扫描+Limit条数的方式进行扫描。

  • 数据目录、个人中心、数据表基本信息中支持展示表字段的最高数据分级。

标签工厂

  • 标签离线服务任务支持跨项目选择目标表。

  • 支持使用非本项目下的物理表作为来源表创建离线视图。

  • 离线视图及行为关系支持手动依赖解析及手动配置上游依赖节点。

  • 组合标签、行为统计及偏好类标签筛选条件支持模糊匹配(like)和模糊不匹配(not like)。

  • 新增标签平台产品使用链路说明,帮助您能够快速上手使用标签平台。

分析平台

新增SQL查询功能,支持保存、预编译、加速查询、运行、分享、参数配置、格式化、定位SQL查询任务;支持查看SQL的查询任务结果、任务日志及任务代码。

数据服务

  • 数据服务与标签服务进行融合,服务模块内置标签项目。

  • 数据服务取消对成员未转交权限时的强校验。

    • 在租户成员管理中,支持删除服务项目内的成员。

    • 在服务项目内添加成员时,支持选择当前租户内正常使用的账号(不包含在租户成员管理中删除的成员)。

    • 在服务内查询成员信息时,如果该成员已在租户成员管理下删除,仍能正常查询并展示成员信息。

  • API调试和API测试输入值前端长度限制为1000字符。

  • 新增通过服务编排方式创建API,支持组合API版本管理、测试、调试、发布、删除等操作。

2023年08月

对应发布的产品版本:V3.11

杭州:2023年08月08日发布。

北京:2023年08月10日发布。

上海:2023年08月13日发布。

深圳:2023年08月15日发布。

标签工厂功能模块将于2023年08月15日在杭州、上海、深圳、北京统一上线。

功能名称

功能描述

相关文档

资源统计

  • 新增支持按周/月下载资源统计详情的快照值。

  • 虚拟任务(Virtual任务)不纳入数据处理单元统计,以减少虚拟节点作为公共上下游,在进行批量节点管理场景下数据处理单元的消耗。

  • 售卖检查环节从已提交修改为已发布,减少测试任务对资源用量的影响。

  • 发布增加针对数据处理单元的发布预检和售卖检查环节并展示校验详情。

通知中心

新增通知设置功能,可设置消息通知的发送渠道,将发起审批任务或进行审批操作通知相关人员。新增邮件和钉钉群消息通知。

通知设置

智能研发

  • 逻辑表字段配置优化,可设置资产治理相关属性,如可为字段匹配词根、标准、设置字段是否唯一、是否为空和字段的安全分类。

  • 业务限定逻辑运算符优化,通过与、或、非三种逻辑运算符,组合出衍生的业务限定。

  • 查询逻辑表时支持使用max_pt获取最新的一级分区。

通用研发

  • 离线物理表字段配置优化,可设置资产治理相关属性,如可为字段匹配词根、标准和字段的安全分类。

  • 编辑器升级优化:

    • 支持select字段列表中或where条件中使用@批量选择表字段。

    • 支持鼠标悬停表名称提示表结构;SQL中使用函数或鼠标悬停至函数提示函数说明。

    • 输入set参数时,系统自动提示当前引擎可设置的参数列表并提示该参数的说明。

    • 系统自动检测SQL中的错误语法,提示错误说明,并提供快捷修复选项。

    • 自动识别语句,提供快捷运行,并提供大量快捷操作和快捷键。

  • 离线物理表支持设置主题域、查看历史版本和版本对比。

数据源

  • 针对 MySQL、PolarDB-x、PolarDB、AnalyticDB for MySQL、AnalyticDB for PostgreSQL、TiDB、GoldenDB、StarRocks、 PostgreSQL、GreenPlum、SQL Server、Vertica、 SAP Hana、DB2、OceanBase、ClickHouse、达梦、KingbaseES、Gbase 8a、Apache Doris数据源,功能优化如下:

    • 新增connectTimeout(如有)和 SocketTimeout(如有)配置项。

    • 新建数据源时connectTimeout默认为15分钟。

    • socketTimeout默认为30分钟,防止未配置超时而导致集成任务长时间处于运行未完成状态,占用资源。

  • Kafka数据源新增支持SASL/SCRAM-SHA-256、SASL/SCRAM-SHA-512认证方式。

离线集成

  • 新增Apache Doris数据源的离线集成。

  • 整库迁移任务支持MaxCompute作为目标库。

  • 整库迁移优化:

    • 新增同步目标库的加载策略配置项。

    • 新增表名校验功能,可校验并展示目标库中已存在的同名目标表,若存在同名表,可配置表名置换或勾选自动删除数据源同名表。

    • 同步方式优化,选择每日同步,则生成每日调度的周期任务;选择单次同步,则生成手动任务;选择每日同步和单次同步,同时生成每日调度的周期任务与手动任务。

  • 集成任务通道配置优化,减少集成任务因各类异常导致的无效等待时长:

    • 数据库重试连接次数默认值由7次改为1次,减少因数据库连接问题导致过久的重试及等待时长。

    • 新增SQL执行超时时长,默认为30分钟,准备语句或结束语句执行时间超过该配置时长则置任务失败。

    • 新增无流量时间阈值,默认为30分钟,如集成任务进程中无读取或写入数据的持续时长超过该配置,则置任务失败。

实时研发

  • 完善实时任务的运维功能,支持运行失败后配置告警和发送次数。

  • 实时任务研发流程体验优化:

    • 支持在Flink SQL任务中,基于已变得的原生DDL语句一键快速创建元表。

    • 元表优化,提高了Kafka、MySQL、Hologres等数据源的Flink字段类型映射的准确性。

    • 对象发布体验优化,批量发布时支持按照依赖关系构建发布顺序,提升任务发布成功率。

    • 支持实时任务提交/发布后自动生成实时实例,保证与Flink vvp侧任务状态实时同步。

调度运维

新增支持创建补数据任务:

  • 支持配置补数据任务,可设置定时补数据或手动触发补数据,以回刷节点范围和业务日期相对规律,确定补数据的场景,减少人工投入。

  • 补数据任务业务日期支持选择最近n个自然周、自然月等。

  • 支持将单次补数据配置一键另存为补数据任务,包括节点范围选择及运行规则配置。

  • 支持补数据任务定时调度,系统自动定期回刷历史数据。

通用补数据实例

资产目录

  • 新增专题广场功能,实现资产分类管理。

    • 新增运营管理员角色,负责资产专题及专题分组管理。

    • 新增资产专题广场,可快捷搜索及查看有权限的资产专题,展示新建专题引导以降低用户学习成本。

    • 支持创建专题分组和资产专题,可设置专题查看权限及目录组织方式;专题下支持创建最多5级目录,支持添加资产对象(数据表)到专题。

  • 资产列表升级,优化搜索及查看路径。

    • 数据表列表支持按照专题查询及筛选资产。

    • 搜索框升级,可在搜索框内快捷切换资产类型并保留搜索词。

    • 数据表列表支持通过鼠标悬停查看详情来快捷查看更多资产概要信息。

  • 数据表支持自定义资产标签,并按照资产标签进行搜索。

数据标准

  • 新增批量导出数据标准功能。

  • 支持通过Excel批量导入已映射关系并查看导入记录。

  • 支持查看映射关系的来源明细(映射规则生成、研发过程关联、手动批量导入)及操作人。

  • 支持手动解除映射关系。

  • 支持在数据标准配置质量监控:

    • 支持在已映射关系列表,针对映射关系中的资产对象批量添加其相关的数据标准已配置的质量监控并添加调度方式;此类规则将影响落标评估明细中的落标评估率,以补全数据标准监控链路。

    • 标准侧配置的质量监控在质量模块的规则列表和质量报告可见可查,但不支持编辑删除,仅支持在标准侧编辑,从而实现标准的强约束。

  • 支持配置全局落标评估任务,针对手动添加的已映射关系的落标稽核,以及所有在数据标准侧创建的质量规则的监控结果更新。

  • 落标评估明细升级,增加数据标准监控规则的统计,影响落标通过率的计算。

资产质量

  • 支持按照全局、项目、个人视角查看质量规则、校验记录、治理工作台、整改流程,并支持按照个人的权限控制个人所能查看的数据范围,使平台使用更加安全,提高治理效率。

  • 质量分区新增支持多级分区的写法,不再限定质量分区表达式是一个固定分区。如:

    • 校验过去7天的所有数据分区为:ds>=$[yyyyMMdd-7d] and ds<=$[yyyyMMdd]

    • 校验昨天杭州市的数据分区为:ds=$[yyyyMMdd-1d] and city="hangzhou"

  • 下游的质量报告和质量治理项,按照实际校验的分区进行拆分,不同的校验分区生成各自独立的质量报告。

  • 调度方式新增任务更新的分区,按照代码中实际更新的分区进行校验,无需提前指定分区。

  • 质量报告和校验记录支持定位日期,仅可选择有校验数据的日期,便于快速定位上次执行的质量报告和校验记录。

资产安全

  • 安全数据分类支持行业级别的多级分类体系,可以按照主题进行多层级的数据分类建设。数据分类绑定数据分级和识别方式,作为下游进行数据识别和数据脱敏的依据。

  • 数据分类内置安全行业模板,便于用户开箱即用。支持查看内置行业模板,也可以将模板中的设置引入到企业的数据分类体系中。内置的模板有多种个人敏感数据、企业数据的识别特征和数据分类。

  • 支持表负责人修改自己所负责表的分类分级,提升安全模块运营效率。

  • 安全加解密算法支持Hex格式。

数据权限

  • 数据表权限支持跨表类型、跨项目、跨板块进行多种权限批量混合申请。

  • 发布过程中缺少的权限支持一键申请,提升权限申请效率。

申请、续期和交还表权限

数据服务

  • 新增支持注册外部API,可对注册API执行发布、权限管理(申请、授权等)、调用API操作;支持的运维监控操作包括配置限流、告警、统计调用情况等。

  • API任务支持多版本管理,每个版本实现草稿态、开发态、生产态隔离。

  • 直连数据源模式新增支持StarRocks数据源。

  • API运维监控增加发布API数、在线API数、调用API数、在线API调用率4个指标数据。

  • 支持在系统配置开启服务升级模式,保证在升级期间线上API的正常调用。

  • 项目管理新增API分组,可在创建API时指定所属分组。

分析平台

新增分析平台功能模块,分析平台是一个面向个人视角,快速便捷的数据平台。本期支持Notebook任务,支持您以笔记本的形式编写SQL代码与Markdown文本相结合的富媒体内容。

  • SQL单元的每次运行将生成一个临时表,可保存结果并展示,直接复制并查询或使用。

  • 支持当前用户所在的Dev/Basic环境,且有即席查询权限的项目作为SQL运行项目。

  • 分析平台支持绑定专用计算源并运行SQL(绑定计算源后不可修改)。

  • 分析平台支持分享Notebook任务、设置临时表生命周期、配置下载审批策略。

  • 支持配置非账号密码类的全局变量与Notebook本地变量。

  • 支持查看与管理分析平台专用计算源下当前用户通过create table创建的表。

分析平台概述

标签工厂

新增标签工厂功能模块,包括离线标签、离线视图、行为关系、标签市场、标签离线服务和应用管理功能。

标签工厂概述

管理中心-跨租户发布

  • 在全量导出发布包的基础上新增支持增量及指定对象导出。

  • 导入发布包时支持全局设置发布包的导入规则。

  • 可预览发布包的详情并展示发布包发布的整体情况。

  • 优化发布体验,可在同一个页面中查看待发布对象及发布记录。

  • 支持标签对象跨租户发布,包括标签平台中的实体、实体ID、标签项目以及项目中离线标签(指标映射、规则组合)。

  • 支持导出在历史版本(Datapahin v2.9前)创建的对象进行跨租户发布。

2023年07月

杭州、北京、深圳、上海:2023年07月11日发布。

功能名称

功能描述

相关文档

产品计费

Dataphin智能研发版和基础研发版的数据处理单元规格拓展,支持3500、4000、4500、5000。

2023年06月

杭州:2023年06月20日发布。

北京、深圳:2023年06月27日发布。

上海:2023年07月01日发布。

功能名称

功能描述

相关文档

管理中心-规范设置

  • 新增数据下载设置功能,支持数据下载时设置水印并可设置文件格式。

  • 新增数据权限审批策略功能,可根据项目及板块归属、环境、表类型、数据安全等级、权限类型设置审批策略。

管理中心-审批模板

  • 审批模板管理优化,支持修改内置审批流的审批节点设置,也可自定义审批模板。

  • 内置模板审批流程能力增强,支持自定义添加或删除转交和加签操作,可自定义增加审批操作。

管理中心-数据源

  • 自定义数据源元数据获取与创建流程优化。

    • RDBMS(关系型数据库管理系统)类型数据库需要上传数据库驱动创建数据源类型;并且读写组件系统自动生成,可从组件中获取表和字段的元数据;支持通过集成管道和脚本模式创建集成任务。

    • 非RDBMS(关系型数据库管理系统)类型数据库需要数据源配置项和读写插件创建数据源类型;支持通过脚本模式创建集成任务。

  • 支持配置数据源标签,以便更好地对数据源进行分类管理。

  • 支持根据当前已开通的功能展示每个数据源的应用场景。

智能研发

智能研发版本整体功能升级,包括:

  • 统计周期表达式增加非空必填校验。

  • 汇总逻辑表责任人默认为板块架构师。

  • 维度逻辑表中可展示关联该表的事实逻辑表。

  • 自定义物化修改了参数后记入版本详情。

  • 衍生指标详情页面增加删除、下线、下线并删除按钮。

通用研发

  • 支持关闭Basic项目及Dev-Prod模式的生产项目的周期性调度。

  • 即席查询功能优化,增加查询加速开关,默认支持5个并发。

  • 调度配置优化,上游依赖和输出名称系统可自动生成。

  • 计算任务列表支持批量操作。

  • 计算任务和集成任务操作链路优化;计算任务支持查看输入表、输出表和下游任务信息。

实时研发

  • 支持在Flink SQL任务中编写DDL读写iceberg数据,支持DDL任务正常预编译、调试、运行、运维等操作。

  • 在Flink vvp引擎下,支持以ElasticSearch数据源做维表、结果表和来源表;支持以Hudi数据源作为实时数据源,作为结果表和来源表。

  • 支持Kafka中JSON,CSV,canal-json,maxwell-json,debezium-json数据格式的数据探查。

  • 支持在无SSL认证模式下,Kafka可用无认证和用户名+密码认证方式的数据探查。

  • Dataphin系统可支持Flink vvp引擎升级至1.15版本。

  • 实时计算模板支持配置运行参数,基于模板创建的任务自动继承运行参数。

  • 支持配置有账户密码的Kafka数据源,用户无需在任务中手动配置。

  • 支持Flink SQL任务页面化配置checkpoint和选择依赖文件。

  • 镜像表字段类型匹配优化,字段类型匹配由原始字段类型改为用Flink SQL字段类型。

基础运维

  • 实例数量统计数据实时更新,也支持手动刷新。

  • 支持按照任务类型和调度类型配置项目级别的监控告警,该项目下的所有对象均生效,符合条件的新增任务将自动配置对应监控告警。

  • 支持逻辑表整表的监控告警,新增字段将自动配置对应监控告警。

  • 补数据优化,搜索结果可精确定位至一个补数据实例。

  • 空跑任务补数据支持选择是否正常跑,增加了补数据任务的灵活性。

离线集成

  • 数据源扩展,支持OceanBase(Oracle模式)数据源和写入Redis数据源,整库迁移任务支持IBM DB2和OceanBase作为来源数据库。

  • 集成组件优化:

    • 一键建表、整库迁移中,MaxCompute建表支持输出中文字段名。

    • 集成任务新增数据库重试策略配置。以防止数据库偶尔无法成功连接导致集成任务失败,或任务因连接失败导致阻塞时间过长的问题。

    • 逻辑表同步组件适配逻辑表支持的字段类型。

    • FTP组件分隔符优化,读取CSV文件支持自定义字段与行分隔符(单字符),读取TEXT文件支持自定义字段分隔符(多字符);写入CSV和TEXT文件支持自定义字段和行分隔符(多字符)。

    • 支持上传Excel、Text类型的本地文件。

    • MongoDB组件支持在匿名模式下获取元数据;同时支持用户配置authSource参数。

    • 支持获取全版本Clickhouse数据源的元数据。

    • 一键建表支持自动获取输入组件的表comment并写入建表语句。

    • MySQL、AnalyticDB for MySQL 3.0输出组件新增一键建表功能。

  • 新增支持在创建集成任务时,快捷配置针对任务相关数据源或表的质量监控规则:

    • 支持对集成任务中的数据表配置结构异动性、表稳定性与表波动性质量规则。

    • 调度方式支持定时调度、本任务前调度、本任务后调度。

    • 支持在管道中查看管道任务中所有数据表已配置的所有质量规则。

数据标准

  • 新增值域、是否唯一值、是否可为空值、是否可为空字符串系统属性,内置对应的落标监控配置;在创建标准时,根据您所填写的属性值系统将自动创建对应的内容质量监控规则。

  • 新增数据分类、数据分级系统属性,和安全模块的数据分类分级结果进行对比,增强标准和安全模块的关联。

  • 数据标准集支持添加用户组为标准集成员,标准集成员的变动跟随用户组成员变动动态更新。

  • 数据标准支持版本对比,能够清晰直观的查看数据标准的信息变更情况。

  • 新增映射关系功能,支持按资产汇总、全部展示视角查看数据标准和资产对象的映射关系清单;并可执行置为“无效映射”、取消无效映射操作。

  • 支持通过Excel批量导入无效映射关系;支持查看导入记录;支持下载异常记录和跳过记录明细。

数据标准-质量

新增数据标准码表参照对比模板,可引用数据标准码表进行数据有效性校验。

资产目录

  • 新增个人数据中心功能,支持查看所有我负责的数据表并可批量转交数据表负责人。

  • 支持在资产详情页修改数据表负责人。

  • 支持查看负责人转交记录。

  • 逻辑表详情页支持生成DDL语句功能。

资产质量

  • 新增治理工作台功能,支持对质量问题发起整改、重新校验、白名单管理等操作。实现从质量规则配置、质量问题发现、质量问题整改的完整质量提升链路。

  • 异常归档支持把异常数据完整记录到数据表中并进行后续分析。

  • 增加权限管理,可保护敏感数据。

  • 调度配置-固定任务调度方式下,支持质量规则在任务调度前优先校验,并已支持来源数据校验等。

  • 支持资源负责人将负责的资源添加为质量监控对象。

  • 新增数据标准码表参照对比模板,可以选择数据标准已发布的码表进行参照对比,支持选择代码值、代码名称、代码英文名。

资产安全

  • 安全实时识别支持数据变动触发实时识别。

  • 支持项目管理员使用安全功能,项目管理员可以编辑自己项目内表字段的分类分级。

  • 支持内置函数脱敏,可以不安装安全策略,使用数据库原生函数实现脱敏。

  • 密钥管理权限优化,可以限制只有超级管理员和密钥负责人有管理权限,用于管理一些绝密的密钥。

  • 识别规则测试优化,支持指定表和多个规则测试,提高测试效率。

数据服务

  • 数据源扩展,直连API支持Lindorm数据源、ClickHouse数据源。

  • 单物理表服务单元支持删除源表已删除的字段。

  • 支持Python方式调用Dataphin数据源。

  • API市场中支持下载API文档。

  • 成员管理页面的一键转交负责人功能支持转交数据服务的服务单元负责人、API负责人、数据源负责人、应用负责人和告警接收人。

  • 运维监控的查询时间范围可配置,可以自定义运维监控数据存储和可查询的时间。

  • 调用示例补充Python调用示例。

  • 高级SQL编译解析参数优化,可以保留历史解析结果,不用重新解析。

2023年04月

杭州:2023年04月25日发布。

深圳:2023年04月27日发布。

北京:2023年05月09日发布。

上海:2023年05月13日发布。

功能名称

功能描述

相关文档

引擎适配

新增支持Hologres计算引擎。当计算引擎选择MaxCompute时,项目可以绑定Hologres或者MaxCompute计算源其中一种。

成员管理

  • 支持自定义项目角色,并支持批量角色替换。

  • 支持一键转交某个用户负责的对象(如数据源)和权限给其他用户,并可查看转交记录。

数据源

  • 离线集成新增支持OpenGauss数据源、SAP Table数据源、StarRocks数据源、Hudi数据源、Doris数据源、Greenplum数据源。

  • 实时研发新增支持StarRocks数据源。

  • 数据源功能优化:

    • Kafka数据源在Kerberos认证时支持上传jaas文件;并支持Confluent Kafka的Schema Registry功能。

    • MySQL数据源支持SSL加密。

    • API数据源认证方式新增API Key以及Token认证方式。

    • MongoDB支持多版本(3.2、3.4及以上)。

计算源

支持MaxCompute、Flink计算源的批量创建。

计算设置

当计算引擎设置为MaxCompute时,支持切换计算设置中的endpoint。

设置Dataphin实例的计算引擎为MaxCompute

公共定义

新增公共日历功能,支持自定义多套日历,可指定日期为休假或工作日,并支持日期标签管理。

项目管理

Flink SQL任务支持使用全局变量。

创建项目

规范建模

  • 规范建模提交流程优化,缩短提交耗时。

  • 事件事实逻辑表支持设置延迟数据处理,自动重跑设置该周期的事实逻辑表实例。

  • 事件事实逻辑表支持单实例补多周期数据,可补当前节点的最多30天的分区。

  • 支持删除本板块逻辑表的分区。

  • 原子指标增加度量单位:手,张,笔,次,包,个,吨,公斤。

  • 计算逻辑配置优化,包括计算逻辑校验优化、预览计算逻辑优化等。

  • 进入调度和参数配置页面时, 自动触发依赖解析,并进行非空校验。

离线集成

  • 新增输入输出组件,包括GreenPlum输入组件与输出组件、Kudu输入组件、Elasticsearch输入组件、API输出组件。

  • 组件功能优化,包括新增GET_JSON_OBJECT函数,可解析JSON格式的字符串,并返回path指定的内容;新增COALESCE函数,可返回第一个非空值。

  • 数据源扩展,新增OpenGauss数据源、StarRocks数据源读写和SAP Table输入组件,可通过SAP rfc的方式读取SAP数据。

  • 集成组件优化:

    • Oracle输出组件支持设置登录超时时间及查询超时时间。

    • FTP输入组件新增支持xls、xlsx格式。

    • FTP输出组件新增导出压缩文件选项,可支持不压缩,或zip、gzip格式导出;加载策略新增支持文件名冲突报错策略,文件名冲突时任务运行报错。

    • Hologres输入输出组件的表选项不支持视图。

    • 当Kafka为Confluent Kafka时,可支持使用schema registry,输入输出组件的键和值的类型新增Kafka Avro。

    • API输入组件新增URL路径配置项。

    • MaxCompute输入输出组件支持读取Date类型,写入支持Date、Tinyint、Smallint、Float类型。

    • OSS输入输出组件支持设置行分隔符。

  • 整库迁移任务支持配置上游依赖。

离线研发

  • 新建及修改MaxCompute自定义函数时,支持选择后缀为jar及py的资源。

  • 新增表管理功能,包括物理表的创建、删除、修改、导入数据、查看;支持查看物理表字段信息、支持在列表中编辑字段、导入字段。

  • 支持MaxCompute引擎的全部开窗函数以及所有开窗语法。

  • SQL任务中表DDL语句支持用变量的方式定义表名称。

新建用户自定义函数

实时研发

  • Flink SQL任务支持缓存最近一次调试测试数据。

  • Flink VVP引擎新增支持StarRocks数据源,支持作为来源表、目标表。

  • Flink VVP引擎对于停止的任务,重启时支持选择从上个状态开始运行。

  • 元表体验优化,如Flink DDL导出支持一键复制代码、元表字段SQL导入根据元表的数据源类型给出不同的参考示例等。

  • 实时代码模板支持一套代码多种配置多次运行。

  • Flink SQL支持Flink原生DDL语句,支持配置是否允许使用Flink原生DDL语句。

  • Flink VVP引擎支持在任务中配置开发环境的计算源的版本和队列。

调度配置

  • 当任务的调度类型为正常调度时,支持开启条件调度配置,开启后周期实例和补数据实例都将按照配置的规则执行调度,以支持同一个任务在不同条件组合下采取不同的调度方式:

    • 可根据业务日期在日历中的属性、输入参数组合为条件设置调度属性。

    • 可支持多组调度条件设置。

    • 开启条件调度后,周期实例和补数据实例都将使用条件调度的规则进行调度。

  • 新增任务级别运行超时时长、失败自动重跑次数和重跑间隔的设置;单个任务可选遵循租户级别设置或自定义设置。

调度配置

基础运维

  • 补数据:

    • 新增按周期补数据,可指定每周或每月固定日期进行补数据,也支持选择月末,根据不同月份自动推算具体日期。

    • 新增支持配置补数据实例运行顺序,可按照业务日期正序或倒序进行补数。

    • 周期任务列表及周期实例列表的筛选项优化。

    • 选中的任务节点存在跨周期依赖时,补数据并发组数不可大于1,以保证数据依赖的正确性。

    • 新增支持导出或查看已选节点列表。

    • 新增支持快捷排除暂停节点及其下游。

    • 新增补数据节点选择方式,包括当前节点的全部下游、指定一级子节点及其全部下游、起点到指定终点的链路上的所有节点。

  • 其他:

    • 运行日志页面增加自动重跑标识以区分手动重跑。

    • 未运行状态的实例新增支持手动直接置为成功操作。

资产全景及目录

  • 数据表产出任务包含范围拓展(以当前表为输出表的集成任务、以当前表为输出表的自定义血缘任务和系统解析的血缘任务),并优化产出信息展示,可查看单个任务的平均开始/结束运行时间、平均运行时长、实例列表等。

  • 针对配置了质量监控规则的数据表,支持快捷查看质量报告,针对未配置质量监控规则的数据表,支持快速创建质量规则入口。

  • 血缘展示范围拓展基于集成任务从业务库同步到计算源、从计算源回流到业务库的全域数据表血缘。

资产权限

  • 申请表权限时,展示字段的安全分类及等级。

  • 新增用户组权限管理。

  • 取消系统管理员默认获取的全局的数据权限,系统管理员需要权限时可以将自己加入项目后给自己授权。

数据标准

  • 公共标准集属性拆分系统属性及自定义属性;新建标准集属性,可引用系统内置的公共属性及自定义公共属性。

  • 系统内置数据类型系统属性,可结合资产对象的元数据信息进行落标监控。

  • 新增范围值类型的属性用于定义值域等约束信息,支持输入枚举值、引用码表、定义区间值的定义方式。

  • 支持从标准视角和资产对象视角来查看全局落标明细。

  • 支持在创建数据标准时快速创建相关的质量监控规则,针对该标准映射成功的资产对象,可以在数据质量页面快速引用添加对应标准配置的质量规则,实现资产的内容质量监控。

  • 新增标准整体功能及使用流程引导图。

  • 支持在标准集列表快速创建对应的数据标准、批量导出数据标准、快速创建映射规则。

资产质量

  • 新增支持批量配置质量规则。

  • 支持数据源表结构异动的校验记录查看,可查看异动的对比详情。

  • 新增跨源两表字段统计值一致性的质量规则模板,用于跨数据源的数据对比。

  • 有效性/字段格式校验的规则模板增加like表达式,开头是、结尾是匹配方式;增加手机号、固定电话、身份证号、邮箱、银行卡号等内置表达式。

  • 质量分区表达式增加内置的小时分区ds='${yyyyMMdd HH}' 。

  • 支持配置是否按照分区表达式触发质量校验。

  • 支持直接引用当前表包含的字段映射到的数据标准已配置质量监控规则,实现对数据标准的主动关联稽核。

  • 调度方式为定时调度时,支持配置调度条件,以支持仅在固定日期下触发质量规则调度。

资产安全

  • 支持查看识别结果的详情信息,包括生效及命中的规则以及仲裁结果。

  • 支持指定项目用于扫描任务执行,以节省计算资源。

  • 支持数据采样缓存用户安全识别,可降低资源消耗,使识别结果更稳定,提升识别的执行记录及准确性。

  • 支持用户主动添加识别记录,包括单字段添加、批量添加,及Excel的批量上传。

  • 支持手动锁定识别记录,锁定后识别结果保持不变。

  • 识别规则配置优化:识别范围、识别方式支持且、或的最多2层的组合;识别支持阈值设定。

  • 资产安全内置多种常用的识别规则,如:身份证号、地址、中文姓名等。

  • Hologres引擎支持使用数据库原生函数进行脱敏,无需安装算法包即可实现数据的脱敏保护。

  • 新增默认脱敏策略功能,支持根据数据分级配置默认脱敏策略,以保障未被识别规则覆盖的敏感数据能被脱敏。

数据服务

  • 应用、服务单元、API、Dataphin数据源权限的授权以及应用创建、服务单元和应用负责人转交无需发起审批流程。

  • 支持通过Mybatis标签的SQL语法来编写查询逻辑。标签类型包括:if、choose、when、otherwise、trim、foreach和where。

  • 数据服务支持页面水印。

  • Dataphin数据源选择范围,新增Hologres数据源。

  • 新增API支持回退到第一步切换新增方式。

  • API向导模式交互优化,提升用户体验感。

告警中心

  • 新增内置消息模板选择。

  • 支持配置收件人变量以动态修改收件人。

消息模板

任务中心

数据表权限审批任务详情增加申请的数据表所属空间信息(项目及业务板块)。

查看并处理任务

2023年01月

北京、杭州:2023年01月12日发布。

上海、深圳:2023年01月18日发布。

功能名称

功能描述

相关文档

新手引导

跟随新手引导,您可以快速上手了解Dataphin的功能,体验数据模型建设的基本流程。

Dataphin新手引导

内置模型

Dataphin内置零售行业数据模型,可快速导入体验模型建设功能。注意,仅升级后开通Dataphin服务的新客户可使用内置模型。

引入预制模型

浏览器适配

新增支持奇安信浏览器。

使用限制

数据源

  • 新增支持南大通用Gbase 8a数据源、TiDB数据源、人大金仓KingBase数据源、GoldenDB数据源。

  • Kafka数据源支持连通性校验。

规范建模

创建编辑逻辑表流程向导化,提升操作体验。

离线集成

  • 新增五种数据源输入输出组件,包含南大通用Gbase 8a、TiDB、人大金仓KingBase、GoldenDB、IMPALA。

  • API组件支持输出中文字段。

  • Teradata输入输出组件不支持选择视图。

  • 新增函数支持将二进制类型转换成十六进制字符串。

  • 离线集成任务新增自动解析依赖功能:

    • 支持自动解析添加上游物理节点或逻辑表节点。

    • 支持自动解析添加任务输出名称。

    • 支持一键添加根节点为上游依赖节点。

离线研发

  • MaxCompute引擎的Spark任务支持访问逻辑表,并增加权限校验。

  • 支持非SQL任务自定义配置血缘关系,包括输入输出表及输入输出字段,并在血缘页面展示。

  • 新增运行记录功能,提供查看代码、查看执行日志、停止运行、下载结果等功能。

实时研发

  • 元表创建及使用优化。

  • Flink SQL任务支持SQL Hints。

  • 阿里云实时计算Flink引擎下流批一体任务支持绑定不同计算源。

发布

支持在项目设置中开启发布审批,支持自定义审批人。

基础运维

支持配置租户级任务超时时间、 自动重试次数和重跑间隔。

运行配置

资产目录

数据表血缘关系新增自定义血缘的展示,支持查看血缘关系对应的产出任务类型。

资产权限

支持按照表级进行权限的申请、授权与鉴权;提升权限申请和授权效率。

申请、续期和交还表权限

数据标准

  • 数据标准集创建及使用体验优化,标准集属性支持配置默认值、配置可见范围和配置审批模板。

  • 支持查看全量标准,可跨标准集检索。

  • 支持查看落标规则执行记录列表以及单个任务执行的落标结果明细。

  • 新增公共标准集属性。

  • 新增支持自定义标准审批流程模板。

资产质量

  • 新增数据源连通性和表结构异动检测支持的数据源。

  • 全域资产质量新增支持的数据源包括:IBM DB2、AnalyticDB for PostgreSQL、Hologres、ClickHouse、DM(达梦)、HANA。

资产安全

  • 识别规则支持手动执行和更新。

  • 增加安全识别任务的展示,可以查看历史识别任务结果和字段识别详情。

数据服务

调用示例:支持Python语言的调用案例和操作说明。

调用Dataphin数据源