管理调度集群

更新时间:
复制为 MD 格式

Dataphin支持连接不同调度集群,并将所有集群可用于调度的资源进行统一管理,使每个租户可以使用不同集群的资源用于创建自定义资源组,从而解决跨Region数据传输以及资源隔离等问题。

背景信息

image

Dataphin中每个租户均有一个默认调度集群,Dataphin集群。同时支持元仓租户下注册可用于任务调度的自定义集群,并指定每个自定义集群可被使用的关联租户。通过该功能,在跨Region数据传输场景中可以有效解决集群之间外网传输数据带来的安全性低、带宽成本高、传输效率低等问题。

例如:Dataphin部署在本地机房,需要通过Dataphin将某个云上业务数据库A的数据集成到与A在同一Region下的业务数据库B。您可以首先在云上通过容器管理服务创建K8s(Kubernetes)集群,指定可用于Dataphin任务调度的机器,再将该集群注册到Dataphin中并创建对应的自定义资源组。创建集成任务时,为任务指定对应集群下创建好的调度资源组,从而实现同一Region下的数据传输,而无需与Dataphin集群产生数据交换。

使用限制

  • 当前仅支持基于最新架构部署的客户使用调度集群管理功能,详情请联系产品运维团队。

  • 除默认集群(Dataphin集群)外,最多可注册5集群。

权限说明

仅拥有管理资源配置权限的全局角色,支持管理调度集群;拥有查看系统设置权限的全局角色,支持查看系统设置。

管理调度集群

  1. Dataphin首页的顶部菜单栏中,选择管理中心 > 系统设置

  2. 在左侧导航栏中选择租户设置 > 资源设置

  3. 资源设置页面,单击调度集群管理页签。调度集群列表默认展示当前租户可使用的集群,即默认集群。

    调度集群列表中展示调度集群的基本信息,包括调度集群名称/ID负责人资源总量状态描述最近更新人/时间以及支持的管理操作。

    • 资源总量当前集群可用的资源总量。

    • 状态:调度集群的状态包括等待资源上报等待超时正常异常。更多信息,请参见调度集群状态

  4. (可选)可通过输入集群名称,或根据调度集群负责人或集群状态来筛选目标调度集群。

  5. 在调度集群列表中对调度集群进行以下管理操作。

    说明

    默认调度集群为系统集群,仅支持查看。

    操作项

    说明

    编辑

    单击目标调度集群操作列的image.png图标,在编辑调度集群基本信息对话框中,修改当前调度集群的集群基本信息MaxCompute连接配置指标采集配置信息。参数说明详情请参见编辑注册调度集群

    集群连接配置引导

    单击目标调度集群操作列的image.png图标,在集群连接配置引导对话框中查看如何进行自定义集群的连接与授权配置。仅连接配置成功的集群可用于创建自定义资源组。具体操作,请参见Dataphin如何通过注册调度集群连接阿里云VPC中的数据源

    删除

    单击目标调度集群操作列的image.png图标,删除未创建自定义资源组的调度集群。

    重要

    删除后,已在目标集群部署的Agent应用将停止运行且不可恢复,建议联系目标集群负责人删除对应的容器(Pod), 具体删除命令为sh uninstall.sh

编辑注册调度集群

参数

说明

集群基本信息

集群名称负责人描述

集群基本信息参数说明同创建操作,详情请参见注册调度集群

MaxCompute连接配置

自定义连接地址

当前集群访问MaxCompute计算源时的连接配置,默认与管理中心 >计算设置中的配置相同。开启后,将为当前集群增加专有连接地址。

如果集群可以连通MaxComputeVPC Endpoint,请优先选择VPC地址。

集群所属地域

选择集群所属地域,此处可选项与管理中心 > 计算设置 > 地域中的可选项相同。

网络连接方式

可选择阿里云VPC网络公网访问

说明

仅当集群所属地域选择为北京上海深圳杭州成都时,支持配置此项,且仅可选择与管理中心 > 计算设置不同的选项。例如,计算设置中网络连接方式为公网,则此处仅支持选择阿里云VPC网络。

连接Endpoint

  • 集群所属地域选择为其他时,默认与管理中心 > 计算设置 > Endpoint的地址相同,您需要自行修改

  • 集群所属地域选择为北京上海深圳杭州成都时,系统将根据所选的集群所属地域,自动生成Endpoint,不可修改。

指标采集配置

指标采集

通过PrometheusHTTP API采集集群的指标信息,默认关闭,开启后,可在运维 > 调度资源大盘中查看当前集群的资源消耗趋势。

集群类型

可选择阿里云ACK其他

Prometheus HTTP API

默认输入PrometheusHTTP API。

认证方式

当集群类型选择为阿里云ACK时,支持选择无认证token认证AccessKey认证;当集群类型选择为其他时,支持选择无认证token认证

选择token认证时,还需输入token;选择AccessKey认证时,还需输入AccessKey IDAccessKey Secret

调度集群状态

调度集群状态包括等待资源上报等待超时正常异常。各状态说明如下:

说明

正常状态的集群可用于创建自定义资源组。如果集群下已创建自定义资源组但状态变更为异常,则基于该集群创建的自定义资源组也不可使用。

参数

描述

等待资源上报

集群仅注册为进行集群连接配置,或已进行集群连接配置,但Dataphin未接收到指定集群上报的资源信息时,处于等待资源上报状态。具体操作,请参见Dataphin如何通过注册调度集群连接阿里云VPC中的数据源

等待超时

集群注册后超过2小时仍未获取到集群上报的信息,将进入等待超时状态。此状态下建议联系集群负责人确认是否已部署Agent应用或目标集群是否有可用机器。

正常

集群已成功注册并完成集群连接配置,Dataphin已持续、稳定地接收到指定集群上报的资源信息,可以正常使用。

异常

如果集群之前为正常状态,但是超过一定时间,将进入异常状态。请检查集群的Agent应用是否正常或联系集群负责人检查目标集群是否有可用机器。