资源组分类
资源组是用于执行具体任务的服务,如接收调度引擎的指令执行SQL任务、数据同步任务,也包括按数据API的定义提供数据服务。按使用场景,资源组分为两类:
系统资源组:由企业数据智能平台提供,供所有用户使用,对于QPS和并发有限制,适用于POC或测试场景。
自定义资源组:需要用户挂载自有K8s,部署内置应用后注册成资源组。可根据用户需要自由组合,适用于高级用户。
资源组功能
每种类型的资源组,按功能可分为几类:
通用任务执行器:用于连接用户的数据库,获取库表元数据,执行SQL,也包括连接用户计算引擎(Flink、Spark等),提交作业。
数据同步Worker:用于执行数据同步任务,包括离线同时、实时同步。
空间同步Worker:用于空间数据同步。
数据服务资源组:按数据API的定义,连接指定数据源,对外提供数据API。
自定义执行器:支持用户按执行器规范,扩展自己的执行器。
系统资源组
系统资源可以在企业数据智能平台 > 系统设置 > 资源组管理中查看,系统内置为“是”的表示系统资源组。用户无须购买即可使用,但规格有限,只适用于测试或POC场景。使用限制如下:
系统资源组-通用任务执行器,支持的并发数为5,只支持普通SQL类任务,不支持MR、自定义脚本类任务。
系统资源组-数据同步Worker,支持并发数为1,单个离线同步任务支持的最大资源为1c1g,不支持实时同步。
自定义资源组
用户可将自有K8s注册到弹性计算中,按内置应用模板,部署后注册成资源组。自定义资源组操作指南参见创建自定义资源组。
自定义资源组性能基线参考典型场景:小型数据团队,资源配置4c8g,参考费用1000元/月。
数据同步资源占用2c4g,支持4个任务并发,数据同步速率参考值3M/秒,日均任务数量参考值50个。
说明实际任务执行数量取决于网络速率、数据库读写速度、数据量大小、任务调度周期等。
通用任务执行资源占比1c2g,支持10个SQL任务并发,日均任务量参考值10w次。
说明实际任务数量取决于数据库SQL执行速度,任务调度周期等。
数据服务资源占比1c2g,支持100 QPS,日均调用次数可达800万次。
说明日均调用次数取决于请求体大小、数据源端查询速度。
资源组网络拓扑
系统资源组部署在企业数据智能平台VPC,需要使用公网地址连接用户云资源(部分云资源支持VPC打通),即云资源注册时需要填写公网地址,云资源白名单需要添加企业数据智能平台的公网出口IP。
独享资源组部署在企业数据智能平台VPC,通过弹性网卡(ENI)连接用户云资源,该弹性网卡在用户VPC中,地址为VPC的任一地址。通过公网地址连接用户云资源,云资源白名单需要添加该ENI的IP。(一般建议添加VPC网段作为白名单。)
自定义资源部署在用户VPC,可通过内网地址连接用户云资源,云资源白名单需要添加服务所在节点的内网IP。(一般建议添加VPC网段作为白名单。)
资源组类型 | 支持云资源内网地址 | 用户数据是否出VPC | 使用限制 |
系统资源组 | 否(部分资源支持VPC网络打通) | 否 | 有 |
自定义资源组 | 是 | 是 | 无 |