本文为您介绍在任务定时运行及注重数据产出时效性的业务场景中,应该如何选择购买方案。
- 如果您购买的DataWorks独享资源组,可以使用DataWorks独享资源组计算器预估费用。
- 公共资源组即为默认资源组。
- 每天0点~9点是DataWorks所有租户的任务高峰期,如果您在该时间段使用的是默认资源组,则资源会被租户共享。
- 由于资源被租户共享,可能出现抢占资源的情况。如果您对任务的产出时间要求较高,请使用独享资源组进行操作。独享资源组不收取实例和版本费用,详情请参见独享资源模式。
场景一:每天定时运行任务
- 场景说明
公司数仓的数据上云后,需要一个最基本的调度系统来调度这上百个定时任务,同时需要控制成本。
- 场景分析
大多数企业在使用阿里云大数据计算引擎(MaxCompute、Flink等)时,需要一个稳定、可靠的调度系统,将自身数据生产任务(代码)按照所需依赖关系、运行时间来调度运行。如果自行开发该系统,将会消耗大量人力成本和维护成本。
- 购买方案
必选商品:DataWorks按量付费。
购买DataWorks(按量付费)后,您可以同时免费获得DataWorks基础版的功能。此时您不仅拥有日常任务调度的基本功能,同时也拥有DataWorks各模块的基础功能,低成本完成一站式数据研发全流程。DataWorks各模块的功能请参见DataWorks增值版本功能对比。
场景二:每天保障并发运行特定数量实例
- 场景说明
业务需要每天早上9点准时查看报表。
- 场景分析
在对数据产出时效性有强需求的业务场景中,要求上游任务在运行成功的情况下,下游任务必须在所设定时间准时调度运行。
- 购买方案
- 必选商品:DataWorks按量付费和DataWorks独享调度资源(包年包月)。
- 可选商品:DataWorks增值版本(包年包月),您可以根据自身需求,选择标准版、专业版、企业版或旗舰版进行购买。
场景三:每天保障并发运行特定数量实例,并支持多线程并发传输数据
- 场景说明
业务需要每天早上9点准时查看报表,主要内容为访问CDN日志和客户端设备类型分布。原始数据在运维人员的云上RDS业务数据库中,每天数据增量约30G,需要进行数据同步。
- 场景分析
在场景二的基础上,增加了大量同步任务的时效性要求。因此,同步任务在被准时调度运行的基础上,还需要部署固定的计算资源、网络资源,来支撑多并发传输,避免同步任务无法启动多线程并发传输。
- 购买方案
- 必选商品:DataWorks按量付费、DataWorks独享调度资源(包年包月)和独享数据集成资源。
假设每天有1500个计算任务、600个数据集成任务,且对不同类型任务有不同的运行时间段要求,则计算逻辑如下:
计算类任务
- 所需保障业务量:1500个实例。
- 往常运行时长:30分钟/实例。
- 期望运行时间段:3:00~8:00,共5小时。
- 计费
需要同时运行的实例数:(1500*30)/(5*60)=150(个)。
所需独享调度资源数量:5*8C16G(根据独享调度资源计费标准计算所得)。
年费用:59,100元(目录价)/年。
数据集成类任务
- 所需保障业务量:600个实例、2个并发线程/实例,共1200个线程。
- 往常运行时长:30分钟/实例。
- 期望运行时间段:00:30~3:00,共2.5小时。
- 计费
需要同时运行的实例数:(600*30)/(2.5*60)=120(个)。
所需独享调度资源数量:4*8C16G(根据独享调度资源计费标准计算所得)。
同时运行的线程数:(1200*30)/(2.5*60)=240(个)。
所需独享数据集成资源数量:4*32C64G(根据独享数据集成资源计费标准计算所得)。
因此,年总费用为47,280+189,120=236,400元/目录价。
说明 上述结果是严格按照任务总量、期望完成时间来计算得出,建议您在实际计算时,根据实际业务量调整购买数量。 - 可选商品:DataWorks增值版本(包年包月),您可以根据自身需求,选择标准版、专业版、企业版或旗舰版进行购买。
- 必选商品:DataWorks按量付费、DataWorks独享调度资源(包年包月)和独享数据集成资源。
在文档使用中是否遇到以下问题
更多建议
匿名提交