本文为您介绍在任务定时运行及注重数据产出时效性的业务场景中,应该如何选择购买方案。

说明
  • 公共资源组即为默认资源组。
  • 每天0点~9点是DataWorks所有租户的任务高峰期,如果您在该时间段使用的是默认资源组,则资源会被租户共享。
  • 由于资源被租户共享,可能出现抢占资源的情况。如果您对任务的产出时间要求较高,请使用独享资源组进行操作。独享资源组不收取实例和版本费用,详情请参见独享资源模式

场景一:每天定时运行任务

  • 场景说明

    公司数仓的数据上云后,需要一个最基本的调度系统来调度这上百个定时任务,同时需要控制成本。

  • 场景分析

    大多数企业在使用阿里云大数据计算引擎(MaxCompute、Flink等)时,需要一个稳定、可靠的调度系统,将自身数据生产任务(代码)按照所需依赖关系、运行时间来调度运行。如果自行开发该系统,将会消耗大量人力成本和维护成本。

  • 购买方案
    必选商品:DataWorks按量付费DataWorks按量付费

    购买DataWorks(按量付费)后,您可以同时免费获得DataWorks基础版的功能。此时您不仅拥有日常任务调度的基本功能,同时也拥有DataWorks各模块的基础功能,低成本完成一站式数据研发全流程。DataWorks各模块的功能请参见DataWorks增值版本功能对比

场景二:每天保障并发运行特定数量实例

场景三:每天保障并发运行特定数量实例,并支持多线程并发传输数据

  • 场景说明

    业务需要每天早上9点准时查看报表,主要内容为访问CDN日志和客户端设备类型分布。原始数据在运维人员的云上RDS业务数据库中,每天数据增量约30G,需要进行数据同步。

  • 场景分析

    在场景二的基础上,增加了大量同步任务的时效性要求。因此,同步任务在被准时调度运行的基础上,还需要部署固定的计算资源、网络资源,来支撑多并发传输,避免同步任务无法启动多线程并发传输。

  • 购买方案
    • 必选商品:DataWorks按量付费DataWorks独享调度资源(包年包月)独享数据集成资源必须商品

      假设每天有1500个计算任务、600个数据集成任务,且对不同类型任务有不同的运行时间段要求,则计算逻辑如下:

      计算类任务

      • 所需保障业务量:1500个实例。
      • 往常运行时长:30分钟/实例。
      • 期望运行时间段:3:00~8:00,共5小时。
      • 计费

        需要同时运行的实例数:(1500*30)/(5*60)=150(个)。

        所需独享调度资源数量:5*8C16G(根据独享调度资源计费标准计算所得)。

        年费用:59,100元(目录价)/年。

      数据集成类任务

      • 所需保障业务量:600个实例、2个并发线程/实例,共1200个线程。
      • 往常运行时长:30分钟/实例。
      • 期望运行时间段:00:30~3:00,共2.5小时。
      • 计费

        需要同时运行的实例数:(600*30)/(2.5*60)=120(个)。

        所需独享调度资源数量:4*8C16G(根据独享调度资源计费标准计算所得)。

        同时运行的线程数:(1200*30)/(2.5*60)=240(个)。

        所需独享数据集成资源数量:4*32C64G(根据独享数据集成资源计费标准计算所得)。

        因此,年总费用为47,280+189,120=236,400元/目录价。

      说明 上述结果是严格按照任务总量、期望完成时间来计算得出,建议您在实际计算时,根据实际业务量调整购买数量。
    • 可选商品:DataWorks增值版本(包年包月),您可以根据自身需求,选择标准版、专业版、企业版或旗舰版进行购买。

购买说明

  • 任何一个在DataWorks运维中心运行的任务,均需要一定的调度计算资源。如果该任务为数据集成任务,则需要另外增加一种调度资源来负责数据的传输。因此您需要购买独享调度资源和独享数据集成资源两种类型的资源,对所有任务进行保障。
  • DataWorks独享数据集成资源可以保障同时启动的数据集成任务并发线程总数,并不保障同步速率。
  • DataWorks按量付费提供的是公共调度资源组,高峰期可能无法保证所有任务准时调度运行。详情请参见按量计费
  • DataWorks标准版及以上版本均支持智能监控功能,您仅需配置单个任务,即可实现对庞大工作流全局监控,保障全局工作流任务按时完成。详情请参见智能监控概述