降低实例配置

重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

如果您的云消息队列 Kafka 版实例的公网流量消耗远小于购买的公网流量配置,或者分区的使用量远小于购买的分区数量,您可以降低公网流量和分区数量配置,从而节约成本。本文介绍如何在云消息队列 Kafka 版控制台降低实例的公网流量、分区数量、流量规格和磁盘容量。

前提条件

重要
  • 降低实例的磁盘容量及流量规格功能目前尚在灰度中。

  • 从稳定性考虑,原则上不支持同时进行跨度较大的流量规格降配和磁盘容量降配。

  • 实例处于服务中未部署状态。

  • 启用公网的实例,公网流量应大于最低带宽3 Mbps。

  • 实例中没有进行中的Topic引流任务。

  • 目标分区数量大于已使用分区数量。

  • 目标流量规格及磁盘容量高于当前使用量的1.3倍。

注意事项

降低实例配置可能会出现重启风险、限速风险和禁写风险。Serverless实例降低配置期间会额外增加暂停弹缩风险。

警告

降低流量规格和磁盘容量之前,务必先查看监控,明确过去一段时间的峰值使用情况(建议您查看7天内的峰值数据),根据峰值谨慎评估目标降低数值,如评估不当,降配操作会影响在线业务的SLA。更多信息,请参见查看云监控数据

  • 重启风险:降低实例配置会引发集群逐台重启,可能会出现如下风险:

    • 客户端会短暂断开连接并重连,可能会造成少量报错。

    • 已经发送成功的消息,降低配置之后不会丢失。降配期间发送失败的消息,建议重试发送,可在客户端配置重试机制。

    • 降配预计持续约30分钟,降配的磁盘容量跨度越大,耗时越长。服务不会中断,可能会导致消费的分区消息发生乱序,请谨慎评估业务影响,建议您在业务低峰期降低实例配置。

  • 限速风险:目标降低流量规格评估不当,可能会出现如下风险:

    • 目标流量规格低于已使用流量的1.3倍,高峰可能被限速。

    • 目标流量规格低于已使用流量值,会立即被限速。

    • 高QPS的实例,降低流量规格会导致请求集中,单次请求耗时增长,可能超出kafka客户端配置的SESSION_TIMEOUT_MS_CONFIG

      说明

      在单次降配中,建议您最多降至购买时流量规格的50%,观察业务运行稳定后再行降配。例如,您购买了流量规格为alikafka.hw.30xlarge的实例,想要降至alikafka.hw.9xlarge,建议您先降至alikafka.hw.16xlarge,观察降配后业务稳定再降至alikafka.hw.9xlarge。

  • 禁写风险:目标降低磁盘容量评估不当,可能会出现如下风险:

    • 目标磁盘容量大小低于已使用磁盘量的1.3倍,高流量实例可能很快就会写满,进而提前删除数据和禁写。

    • 目标磁盘容量大小低于已使用磁盘量,会触发禁写。

  • 数据风险:当磁盘水位较高且持续高流量写入时,为保证稳定性可能产生提前删除数据截断风险。

  • 稳定性风险:由于云盘原生不支持容量降配,云消息队列 Kafka 版实现磁盘容量降配需要额外消耗集群CPU,磁盘IO。处于较高资源使用水位的实例,执行磁盘容量降配可能产生稳定性风险。建议执行磁盘降配前,先检查实例是否存在未治理的实例风险项,进行治理使实例达到较为健康的状态后再执行。

  • 暂停弹缩风险:Serverless实例升降配期间,暂停弹性伸缩,请确保在业务用量平稳期间操作。

适用场景及风险点

场景

风险

云消息队列 Kafka 版非Serverless实例的流量使用量持续低于购买时的流量规格,需要降低实例的流量规格。

当前业务可能会被限速,请参见上文注意事项中的限速风险。

云消息队列 Kafka 版非Serverless实例的磁盘使用率过小,需要缩小磁盘容量。

当前业务可能会被禁写,请参见上文注意事项中的禁写风险。

云消息队列 Kafka 版非Serverless实例变更分区数或Topic数。降低后的数量不低于实际使用量。

说明

新购实例仅支持变更分区数,2022年08月26日之前购买的实例支持变更Topic数。

无。

云消息队列 Kafka 版非Serverless实例下调公网带宽。

无。

云消息队列 Kafka 版Serverless实例下调保底用量计费规格。

降低后会暂停弹缩。

操作步骤

  1. 登录云消息队列 Kafka 版控制台

  2. 概览页面的资源分布区域,选择地域。

  3. 实例列表页面,单击目标实例名称。

  4. 实例详情页面,单击概览区域右上角的降配

  5. 在降配面板。设置公网流量分区规格流量规格磁盘容量,阅读并选中服务协议,然后单击立即购买

    重要
    • 为了避免因带宽不足触发网络限制,云消息队列 Kafka 版会根据您选择的实例规格,评估出最佳带宽大小,请您根据界面提示,按一定倍数购买公网流量。

    • 降低后的分区数量不能低于实际使用的分区数量。

    • 当集群当前CPU等资源使用率较高时,为保证稳定性,降配页面会限制流量规格降配。

    • 在专业版(高写版)/专业版(高读版)实例中,仅alikafka.hw.60xlarge/alikafka.hr.60xlarge以下流量规格的实例支持降低流量规格,alikafka.hw.60xlarge/alikafka.hr.60xlarge及以上流量规格的实例暂不支持降低流量规格。

    • 降低实例配置时,如果不涉及磁盘降配,所需的时间取决于实例规模,alikafka.hr.30xlarge或alikafka.hw.30xlarge及以下规格预计持续约30分钟、alikafka.hr.60xlarge或alikafka.hw.60xlarge及以上规格预计持续1小时以上,一般情况下,实例规格越大,持续时间越长。如果需要磁盘降配,由于涉及历史数据拷贝,耗时会变长,时长与磁盘数据量正相关。

    实例详情页面的基础信息区域,实例状态更新为升级中。待降配完成后,显示降级后的规格。