研发平台设置

研发平台帮助您在研发过程中对锁Analyze命令的并发数量进行管控。本文将为您介绍如何设置编辑锁、对象提交、查询加速及存储量更新设置

使用限制

当计算引擎为E-MapReduce3.x、E-MapReduce5.x、CDH5.x、CDH6.x、FusionInsight 8.x、Cloudera Data Platform 7.x、亚信DP5.3、ArgoDB、TDH 6.x、StarRocks时,可使用存储量更新设置功能。

权限说明

仅支持具备管理研发平台设置权限点的自定义用户角色和超级管理员系统管理员设置研发平台。

研发平台入口

  1. Dataphin首页的顶部菜单栏中,选择管理中心 > 系统设置

  2. 在左侧导航栏中选择平台设置 > 研发平台

编辑锁

  1. 编辑锁区域,单击编辑图标,开启排他编辑锁开关并配置锁。

    参数

    描述

    排他编辑锁

    未开启时,用户可互相覆盖锁定状态;开启后,用户锁定某个对象后其他用户不可编辑,直到手动释放或持锁到期,其他用户才可锁定并开始编辑。

    持锁时长

    持锁时长内,用户无任何编辑动作,持锁排他将失效,可被其他用户获取锁。默认为30分钟,最低为5分钟,最高不超过120分钟

    关闭对象时自动释放

    关闭对象编辑选项(tab)时自动释放锁定。

    提交成功时自动释放

    提交成功时自动释放锁定,提交失败不释放。

  2. 单击确定,完成编辑锁设置。

    如需恢复系统初始配置,您可一键恢复默认值

查询加速

开启查询加速,支持加速所有即席查询和分析平台的SQL单元查询;关闭该开关,则所有即席查询和分析平台SQL单元的查询加速开关将被隐藏,不支持查询加速。

重要

查询加速仅支持MaxCompute计算引擎。

存储量更新设置

通过集成、实时研发等任务直接写入到HDFS的数据表,Hive默认不更新存储量信息,包括:表存储量、分区存储量,因此,在资产目录中无法展示目标表的存储量信息。Dataphin提供了在数据表更新后自动执行Analyze命令以获取最新存储量信息的功能,您可以在管理中心-系统设置-研发平台设置中进行配置。

  1. 存储量更新设置区域,点击编辑图标,开启存储量自动更新开关并配置并发连接数。

    • 存储量自动更新:默认关闭,开启后,Dataphin会在任务运行成功后,针对Hive目标表自动执行Analyze命令以更新存储量信息,如果集成、实时研发等任务数量较多,并且您的Hive Server性能较好,可以通过调整并发连接数以缩短更新命令的整体运行时间,保证次日可在资产目录查询最新存储量。请注意,并发连接过高可能会消耗较多计算资源,影响其他任务正常运行,请结合业务场景,合理配置并发连接数。

    • 最大连接数:支持设置执行Analyze命令的最大并发连接数,默认为5,支持设置1~200之间的正整数。

      重要

      当存储量自动更新开启时,Analyze命令运行超过24小时,系统将自动终止执行中或等待中的命令,节省计算资源的消耗。

  2. 单击确定,完成存储量更新设置。

    说明
    • 当存储量自动更新从关闭变为开启,并确定后,所配置的并发连接数立即生效,请注意,并发连接过高可能会消耗较多计算资源,影响其他任务正常运行,请结合业务场景,合理配置并发连接数。

    • 当存储量自动更新从开启变为关闭时,正在执行中或等待中的Analyze命令不受影响,后续运行成功的集成、实时研发等任务的目标表存储量将无法自动更新,您可在Hive中执行Analyze命令手动更新信息。

节点任务相关设置

  1. 节点任务相关设置区域单击编辑图标,配置新建任务默认调度时间和对象提交规则。

    • 新建

      参数

      描述

      默认优先级

      新建集成任务、计算任务和逻辑表任务时的默认优先级,可选择最低,默认选择为中。

      默认调度时间

      区间内随机

      时间区间默认为00:00~03:00,随机时间间隔默认为5分钟。

      • 时间区间的结束时间必须大于开始时间,时间的有效取值范围为00:00~23:59,格式为hh:mm。

      • 随机时间间隔的有效取值范围为1 ~ 30的正整数。

      固定时间

      固定时间默认为00:00

      时间的有效取值范围为00:00~23:59,格式为hh:mm。

      Python默认版本

      新建Python计算任务、新建Python离线计算模板和安装Python三方包时的默认Python版本。可选择Python 2.7Python 3.7Python 3.11,默认为Python 3.7。

      说明
      • 默认调度时间默认选择为区间内随机,您可根据需要修改为固定时间。

      • 新建离线任务(集成任务、计算任务、逻辑表)时,调度时间会根据此处配置的默认调度时间自动取值。

        • 若默认调度时间选择区间内随机,则按照所配置规则随机获取一个时间。

        • 若默认调度时间选择固定时间,则获取所配置的时间。

    • 运行

      SQL 包含账号密码全局变量时隐藏 logview URL:SQL中的账号密码全局变量,会以明文展示在MaxCompute logviewSQL中,容易造成泄漏,默认关闭

      启用此配置项,如果MAXCOMPUTE_SQL和逻辑表任务中包含账号密码全局变量,那么在开发环境的运行和数据预览日志,以及生产环境的运维日志中,引用了账号密码全局变量的SQLlogview URL将被隐藏。logview URL替换为 当前SQL使用了账号密码全局变量 {dp_glb_xxx},已隐藏logview url The logview url is invisible because of current SQL is using global variable “{dp_glb_xxx}”, which is of type account and password.

      说明

      仅当计算引擎MaxCompute时支持此项配置。

    • 提交

      参数

      描述

      离线研发对象提交自动解析依赖

      开启后,离线研发对象(例如,SQL计算任务和逻辑表任务)每一次提交时自动触发依赖解析,更新上游依赖列表,避免上游依赖遗忘缺失。

      逻辑表提交字段类型校验

      开启后,逻辑表提交时,系统将校验字段计算逻辑的返回类型与字段类型是否兼容匹配,不匹配时系统将阻塞提交,防止类型隐式转换,造成数据错误。

    • 默认依赖周期与依赖策略

      支持对默认依赖周期默认依赖策略进行修改。

      • 默认依赖周期:可选择为本周期(当日)上周期(前1日)最近24小时N,其中前N日中的N默认为2,且不可为空。

      • 默认依赖策略:可选择为第一个实例最近一个实例全部实例最后一个实例

      初始默认依赖周期和依赖策略如下表。

      本节点调度周期

      上游节点调度周期

      上游节点是否自依赖

      默认依赖周期

      默认依赖策略

      日/周/月

      是/否

      本周期(当日)

      最后一个实例

      日/周/月

      小时/分钟

      本周期(当日)

      全部实例

      日/周/月

      小时/分钟

      本周期(当日)

      最后一个实例

      月/周/日/小时/分钟

      月/周

      本周期(当日)

      最后一个实例

      月/周/日/小时/分钟

      月/周

      本周期(当日)

      最后一个实例

      小时/分钟

      是/否

      本周期(当日)

      最后一个实例

      小时/分钟

      小时/分钟

      是/否

      本周期(当日)

      最后一个实例

  2. 完成配置后,单击确定

    如需恢复系统初始配置,您可一键恢复默认值

表管理设置

  1. 表管理设置区域单击编辑图标,配置使用SQL删除表后自动生成表删除待发布项表管理中删除表生成待发布项

    • 使用SQL删除表后自动生成表删除待发布项:默认开启。开启后,在开发环境即席查询或SQL计算任务中执行drop table语句后,系统将自动生成删除表的待发布项。关闭此开关后,在开发环境执行drop table table_name语句,则不生成删除表的待发布项。

    • 表管理中删除表生成待发布项:默认开启。开启后,在表管理中进行删除表操作,系统将生成相应的待发布项。关闭此开关后,在表管理中进行删除表操作,则不生成相应待发布项。

  2. 完成配置后,单击确定

    如需恢复系统初始配置,您可一键恢复默认值

规范建模默认计算引擎

设置Dataphin实例为Hadoop计算引擎的租户支持设置规范建模的默认计算引擎,包括Hive、Impala、Spark。计算引擎存在以下限制,详情如下:

重要

如果项目对应的计算源未开启对应的任务时,将自动切换到Hive计算引擎。更多信息,请参见创建Hadoop计算源

  • Hive:不可读取存储为Kudu格式的来源表。

  • Impala:可读取存储为Kudu格式的来源表,暂不支持将逻辑表存储为Kudu。如果没有Kudu格式的来源表,不建议使用。

  • Spark:Spark不可读取存储为Kudu格式的来源表。