混合云大数据产品库存水位最佳实践

希流
  • 收获赞:135
  • 擅长领域:这个同学很专业,但是有点神秘哟~

本文重点介绍在混合云场景下如何通过大数据管家掌握当前各大数据产品的库存水位情况,帮助客户及时发现是否超负荷使用产品。

概述

混合云其规模有限,不会像公有云那样可以自由地增加资源, 分配各产品的资源都是有限的,产品下的某个实例消耗大部分资源,必然会造成其他实例可用资源不足,本文重点介绍下如何通过大数据管家(ABM)来查看大数据产品(MaxCompute/DataWorks/DataHub/Blink)的库存和水位现状,能够及时发现水位不足情况,采取必要措施避免进一步转化为问题。

目标用户

客户运维

交付

研发

测试

名词解释

CU:ComputerUnit,MaxCompute的计算单元,1 CU包含1 CPU及4 GB内存。

槽位:一个逻辑概念,是对底层机器的内存划分,一个槽位占用的内存没有非常严格的比例,但是目前考虑到任务类型的复杂,按照内存的1~1.5倍进行划分,比如200G的机器内存可以给200~300个槽位,任务占用的资源按照槽位统计。

方案介绍

步骤一,登录混合云运维管理平台(ASO)

aso 首页

步骤二,打开运维标签

运维

步骤三,打开运维产品列表子页面ASO大数据管家步骤四,进入大数据管家主页面

MaxCompute的CU和存储库存水位信息

资源库查看,当前截图下剩余CU和存储空间都比较充足,但是一旦使用率超过90%就需要关注,CU使用率高表示整个集群计算资源不足,需要增加CPU和内存资源,storage使用率高表示存在资源不足,需要增加磁盘。

大数据管家资源库

DataWorks的槽位水位信息

资源库可查看,当前截图下剩余槽位比较充足,但一旦槽位使用率到100%,DataWorks新增的任务将无法成功,报错信息“正在等待在云端的gateway资源”,需要查看哪些任务占用了槽位资源未释放,如果任务确认都是正常的无法停掉就需要扩容gateway资源。

datawork水位DataWorks的运行任务可以通过DataWorks管家的管理页面查看,耗时较长的定时任务可以直接关闭。

datawork管家datawork作业管理datawork定时任务

DataHub水位信息

资源库查看,一般情况下DataHub 数据都有生存周期的,存储空间很难被打满,需要在仪表盘页面查看下CPU和内存水位,水位较高时需要考虑扩容或者降低采集任务数。datahub存储水位datahubcpu和内存水位

Blink水位信息

仪表盘页面查看,关注CPU和内存水位,水位较高时需要考虑新增任务会有启动失败问题。

blink cpu和内存水位

方案优势

图形化页面可以快递准确地看出水位趋势图,相比直接读取元数据库更加形象,降低了使用难度,也避免了操作元数据库的安全隐患。

常见问题

  1. 大数据管家因采集的数据源繁多,数据量巨大,存在数据无法展示的问题,需要多次刷新和尝试。