工作空间资源优化页面主要以项目管理员为维度,为项目管理员展示指定工作空间下的可优化项信息,以及可优化计算排行和可优化存储排行。

前提条件

  • 您需要开通DataWorks专业版及以上版本,才可以使用资源优化功能。
  • 已支持资源优化功能的地域包括华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、西南1(成都)和中国(香港)。

操作步骤

  1. 登录DataWorks控制台
  2. 在左侧导航栏,单击工作空间列表
  3. 单击相应工作空间后的进入数据开发
  4. 单击左上方的图标图标,选择全部产品 > 数据治理 > 资源优化
  5. 在左侧导航栏,单击工作空间资源优化
    您可以单击顶部的工作空间下拉列表,选择相应的工作空间,也可以选择我的所有项目切换项目
    工作空间资源优化页面为您展示工作空间资产概览工作空间资源优化
    • 您可以在工作空间资产概览查看工作空间下的总任务数总表数
      优化项变化趋势为您展示最近10天内可优化项的变化趋势,您可以在此查看最近完成可优化项的数量。
      说明 优化趋势中的数据是离线计算生成的,您可以查看最新的日期,以获取数据的最近更新时间。

      可优化计算排行可优化存储排行最多展示10行信息。

    • 工作空间资源优化个人资产优化的可优化项基本一致,只是查看的视角不同。工作空间优化
      扫描领域 优化对象 可优化项 描述
      数据存储 MaxCompute表 未管理的表 未管理的表需要满足以下两个校验条件:
      • 未设置生命周期的表。
      • 最近一个月未在DataWorks上访问的非分区表。
      同时满足上述条件的表,会被扫描出来。针对上述扫描条件,您可以通过设置表的生命周期,解决上述扫描问题。表的生命周期详情请参见生命周期
      说明 表的生命周期到期后,会回收表数据,请谨慎操作。
      空表 存储量为0的表即为空表。不建议您直接删除表,推荐您根据表的创建时间,对早期创建的表进行审计。
      最近90天未访问表 最近90天未访问表的优化方案如下:
      • 根据自身业务需求,调整表的生命周期。
      • 梳理您的业务,确认该表是否有效。如果无效,您可以删除该表。
        注意 删除后的表,无法恢复数据,请谨慎操作。
      数据计算 MaxCompute任务 冲突任务 多个任务写入同一张表,可能导致不符合预期的结果。在数据开发过程中,不建议多个任务操作同一张表的同一个分区,避免其中一个任务报错,补数据时出现数据质量问题。

      开发任务时,需要考虑数据幂等性问题。建议根据任务的下游数量,暂停其中一个任务,调整暂停任务下游节点的依赖关系。

      数据倾斜 产生数据倾斜的根本原因是:有少数fuxi实例处理的数据量超过其它实例处理的数据量,导致少数实例的运行时长超过其它实例的平均运行时长,从而导致整个任务的运行时间较长,造成任务延迟。

      数据倾斜的解决方案请参见其它计算长尾调优

      暴力扫描 如果在运行任务时未指定分区,会扫描大量数据。建议您优化任务,减少数据的输入量。

      暴力扫描的判定规则为:扫描的分区数大于90个,且总扫描量大于90 GB。

      数据采集 同步任务 导入为空 扫描出导入数据量持续为0的数据同步任务,您可以暂停或下线该任务。
      持续导入一致 扫描出连续15天导入数据量持续一致的数据同步任务,请关注源数据是否不再更新。

      此时需要考虑业务是否已暂停。如果业务暂时停止,建议暂停任务的调度,以节省调度、计算和存储等资源。

      同源导入 扫描出有相同数据源的数据同步任务,该类任务会存在重复导入MaxCompute的情况,导致存储及调度资源的浪费。您可以通过合并任务解决该问题。
      OSS同步优化 扫描出通过公网进行OSS数据传输的数据同步任务,该类任务会导致额外的网络费用。

      您可以进入工作空间管理 > 数据源管理页面,修改数据源的Endpoint地址为内网地址,减少公网流量费用、提升传输速度。详情请参见配置Endpoint

    对于业务上难以治理的内容,您可以单击相应表或任务后的添加白名单。详情请参见添加白名单