DataWorks支持默认资源组、独享资源组和自定义资源组,本文为您介绍三种资源组的使用场景和使用方式。

说明 如果您购买的是DataWorks独享资源组,可以使用DataWorks独享资源组计算器预估费用。
下图为运行过程中,不同类型的任务使用资源组的流程。流程

DataWorks调度和数据集成均包括默认资源组、独享资源组和自定义资源组。数据集成的同步资源管理复用调度资源管理系统,如果使用DataWorks的数据集成任务,则需要区分调度资源组和数据集成资源组的概念。

默认资源组

每个租户在开通DataWorks时,均会自动创建默认资源组。租户内的所有工作空间共享,您无需任何配置、操作,即可运行任务,但该默认资源组需要说明使用节点。

关于默认资源组的说明如下:
  • 使用限制:
    • 默认资源组的最大调度资源有固定大小。所有租户下的工作空间共享,会出现各工作空间抢占资源的情况,无法保证任务可以及时得到资源并被调度执行。
    • 默认资源组在DataWorks公共集群下,所有租户共享该集群资源,会导致高峰期租户之间抢占资源,无法保证任务可以及时得到资源并被调度执行。
  • 使用场景:
    • 默认资源组是在租户开通DataWorks时默认创建的,您可以使用默认资源组进行数据开发、运行测试等操作。
      说明 DataWorks免费支持默认资源组。
    • 默认资源组适用于任务量相对较少、对任务时效性要求不高的场景。
  • 功能概述:
    默认资源组支持所有的任务类型,但不支持以下任务:
    • 需要公网访问外部服务,且需要白名单的任务。
    • 需要访问VPC的任务。
    • 需要访问公网的任务,建议使用其它资源组。

    默认资源组为您提供任务安全沙箱功能。

  • 费用:

    根据实例费用、同步进程费用等按量付费。

独享调度资源组

DataWorks的独享资源组包括独享调度资源组和独享数据集成资源组。数据集成属于DataWorks产品,所以独享数据集成资源和独享调度资源在一起购买。

关于独享调度资源组的说明如下:
  • 独享调度资源组的使用无版本要求。
  • 使用限制:
    • 独享资源组不支持跨租户节点、机器学习节点。
    • 购买独享资源组时,请务必与您的VPC在同一个可用区。
    • 切换任务资源组时,请注意每种任务类型都需要确认网络已经连通。
  • 使用场景:
    • 独享资源组的资源可以随时调配,且可以保障任务产出,推荐生产任务使用。
    • 任务量大,且对任务时效性要求高的场景必须使用独享资源组。
    • 需要访问公网地址、VPC地址的场景,请使用独享资源组。
    • 访问目的端服务、需要配置白名单的场景,请使用独享资源组。
    • 您的VPC与IDC已经连通,且任务需要访问IDC的场景,请使用独享资源组解决网络连通问题。
  • 费用:

    如果调度实例超过500个,使用独享资源不收取实例费用,仅收取资源费用。

修改任务运行至独享调度资源组的说明如下:
  • 如果您在运维中心修改资源组,周期任务在第二天才会生效。您可以通过测试或补数据运行保证任务即时生效。
  • 请务必对单个任务进行测试后,再批量修改。
  • 如果是需要连通网络的情况,请优先连通网络,并在测试时进行验证。
修改任务运行到独享调度资源组的操作如下:
  1. 购买独享调度资源组:
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击资源组列表,进入独享资源组页面。
    3. 单击新增独享资源组
    4. 新增独享资源组对话框中,选择资源组类型独享调度资源组,单击订单号后的购买,即可跳转至购买页面。
    5. 进入购买页面后,请根据实际需要,选择相应的地域独享资源类型独享调度资源资源数量计费周期,单击立即购买
      说明
      • 此处的独享资源类型选择独享调度资源
      • 通常根据实际的任务并发数来购买相应的资源数量,详情请参见购买指引中的场景三。
      • 建议您至少购买两个独享资源组,以保障容灾。
      • 购买的独享资源组和需要访问的数据源必须在同地域同可用区,暂不支持跨可用区。即华东2(上海)地域的独享资源,只能给华东2(上海)地域的工作空间使用。
    6. 确认订单信息无误后,选中《DataWorks独享资源(包年包月)服务协议》,单击去支付
  2. 新增独享调度资源:
    1. 资源组列表 > 独享资源组页面,单击新增独享资源
    2. 新增独享资源对话框中,配置各项参数。
      参数 描述
      资源组类型 资源组的使用类型。独享资源组包括独享调度资源组独享数据集成资源组两种类型,分别适用于通用任务调度和数据同步任务专用。
      资源组名称 资源的名称,租户内唯一,请避免重复。
      说明 租户即主账号,一个租户(主账号)下可以有多个用户(子账号)。
      资源组备注 对资源进行简单描述。
      订单号 选择购买的独享资源组订单。如果没有购买,请单击购买,跳转至售卖页进行购买。
      可用区 单个地域提供了不同机器的可用区,请选择数据源所在的可用区。
    3. 配置完成后,单击创建,即可新增独享资源。
      说明 独享资源在20分钟内完成环境初始化,请耐心等待后,单击刷新图标,确认其状态更新为运行中
  3. 单击相应资源后的修改归属工作空间
  4. 修改归属对话框中,选择需要分配到的工作空间,单击确定
  5. 修改相应任务的调度资源组。
    您可以通过运维中心调度配置两种方式修改调度资源组:
    • 通过运维中心页面修改调度资源组:
      1. 单击左上角的图标图标,选择全部产品 > 任务运维 > 运维中心(工作流),进入运维中心页面,并切换至修改的归属工作空间。
      2. 在左侧导航栏,单击周期任务运维 > 周期任务
      3. 单击页面中间的箭头展开任务列表后,单击相应周期任务后的更多 > 修改资源组修改资源组
        注意 虚节点、业务流程、机器学习等任务类型不支持修改资源组,请勿选择。
        如果您需要批量修改资源组,请在周期任务页面,选中需要修改的周期任务,单击页面下方的修改资源组批量修改资源组
      4. 批量修改资源组对话框中,选择相应的调度资源组,单击确定
    • 通过调度配置页面修改调度资源组:
      1. 单击左上角的图标图标,选择全部产品 > 数据开发 > DataStudio(数据开发),并切换至修改的归属工作空间。
      2. 数据开发面板,双击打开相应节点的编辑页面。
      3. 单击右侧的调度配置,在资源属性区域选择任务调度运行时需要使用的资源组。详情请参见配置资源属性资源组
      您可以在节点的编辑页面,单击运行图标。在参数对话框中,设置数据开发界面测试运行使用的调度资源组,单击确定修改参数
  6. 修改完成后,在周期任务运维 > 周期任务页面,右键单击相应周期任务的DAG图,单击节点详情,查看资源组信息。

    修改任务资源组后,请进行测试运行或补数据运行。您可以通过查看运行日志,判断任务是否运行在独享资源组上。

    如果任务运行成功,且查看日志无误,则说明该任务已正常运行在独享资源组上。

独享数据集成资源组

关于独享数据集成资源组的说明如下:
  • 独享数据集成资源组的使用无版本要求。
  • 使用限制:
    • 独享数据集成资源组是VPC网络,如果数据源是经典网络,则不可以迁移至独享数据集成资源组。
    • 购买独享数据集成资源组时,请务必与您的VPC在同一个可用区。
  • 使用场景:
    • 独享数据集成资源组的资源可以随时调配,且可以保障任务产出,推荐生产任务使用。
    • 任务量大,且对任务时效性要求高的场景必须使用独享资源组。
    • 需要访问公网地址、VPC地址的场景,请使用独享资源组。
    • 访问目的端服务、需要配置白名单的场景,请使用独享资源组。
    • 您的VPC与IDC已经连通,且任务需要访问IDC的场景,请使用独享资源组解决网络连通问题。
注意
  • 如果是需要连通网络的情况,请优先连通网络,并在测试时进行验证。
  • 您需要在数据开发页面修改并提交独享数据集成资源组,且发布后即时生效。
  • 不支持批量修改独享数据集成资源组。
修改任务运行至独享数据集成资源组的操作如下:
  1. 购买并新增独享数据集成资源组,详情请参见独享数据集成资源组
  2. 修改任务运行时使用的资源组。
    您可以通过数据集成资源组配置选择数据同步任务资源组:
    1. 单击左上角的图标图标,选择全部产品 > 数据开发,并切换至修改的归属工作空间。
    2. 数据开发面板,双击打开相应节点的编辑页面。
    3. 单击右侧的数据集成资源组配置
    4. 数据集成资源组配置对话框中,选择相应的方案资源组修改资源组
    5. 配置完成后,单击工具栏中的保存图标。
  3. 修改同步任务的资源组后,单击保存提交图标。
  4. 发布节点任务,详情请参见发布任务
  5. 发布后,同独享调度资源的操作一致,进入运维中心 > 周期任务页面进行测试运行或补数据运行。

专有网络绑定

  • 使用限制

    创建的独享资源组和您的VPC在同一个可用区。

    如果独享资源组和您的VPC不在同一个可用区,建议您重新创建。如果无法重新创建,请提交工单

  • 使用场景
    • 如果配置的任务需要访问您的VPC地址时,则必须连通和VPC之间的网络。
    • 如果您的VPC与IDC已经连通,则可以通过专有网络绑定连通独享资源组和您的IDC,以支持任务的运行。
  • 操作步骤
    1. 单击相应资源后的专有网络绑定,即可进入绑定页面。
      绑定前,请首先进行RAM授权,让DataWorks拥有访问您的云资源的权限。授权
    2. 授权完成后,单击新增绑定
    3. 新增专有网络绑定对话框中,配置各项参数,单击创建新增绑定
      注意
      • 独享资源组的可用区必须选择要访问数据源的可用区,绑定专有网络时,选择访问数据源所绑定的交换机。
      • 如果没有交换机或者安全组,请单击创建交换机创建安全组。请注意创建在专有网络的同一个可用区下。
    4. 如果您的云产品实例需要配置白名单,请绑定专有网络成功后,返回独享资源组列表,单击相应独享资源组后的查看信息
      • 将对话框中的EIP地址网段作为白名单,添加至相应云产品实例的IP白名单列表中。
      • 添加云产品实例所在的交换机网段(内网网段)至自己的白名单IP列表中。
      • 如果任务切换至独享资源组后,MaxCompute开启的IP白名单有问题,请提交工单

运维助手

运维助手适用于Python的三方包等资源包没有安装、部分特殊脚本的固定使用等场景。

请注意固定安装目录,详情请参见运维助手

自定义资源组

注意 自定义资源组仅支持数据集成任务和Shell任务。
  • 版本限制
    • 您需要开通DataWorks企业版及以上版本,才可以提交工单开放白名单,以使用自定义调度资源组。
    • 您需要开通DataWorks专业版及以上版本,才可以使用自定义数据集成资源组。
  • 使用场景
    • 网络问题:进行数据同步时,需要访问自己的IDC。
    • 环境问题:例如依赖了Python高版本、JDK环境等,您可以使用一台环境满足的ECS作为自定义资源。
    • 迁移问题:如果本地已经有任务运行,您可以通过直接调度任务在自己的服务器上,减少脚本迁移的工作量。
  • 操作说明
    • 自定义数据集成资源组的详情请参见新增自定义资源组
    • 自定义调度资源组的操作如下:
      1. 单击DataWorks控制台左侧导航栏中的资源组列表 > 自定义资源组
      2. 单击右上角的新增调度资源
      3. 新增调度资源对话框中,输入资源名称并选择归属工作空间,单击确定
      4. 单击相应资源组后的服务器管理。在管理服务器对话框中,单击增加服务器
      5. 新增调度资源对话框中,配置各项参数,单击确定
        参数 描述
        网络类型 目前仅支持专有网络。
        ECS UUID 必须使用UUID方式添加。您可以执行dmidecode | grep UUID获取UUID。
        机器IP 机器的内网IP。您可以登录机器执行hostname -i获取。
      6. 添加服务后,返回并刷新自定义资源组页面,单击相应资源组后的服务器初始化,登录ECS根据界面提示的初始化流程进行操作。
  • 修改任务至自定义资源组的操作和独享资源组一致:
    • 自定义调度资源组需要进入运维中心修改。
    • 自定义数据集成资源组需要在数据开发页面修改、提交并发布。