稳定性工具实践

阿里云提供了一系列运维稳定性工具,可帮助优化实例性能、提升系统稳定性,并简化日常运维操作。

功能

描述

云助手插件

配置kdump

在内核崩溃时生成核心转储文件(dump文件),用于故障排查。

ecs_dump_config

一键配置辅助弹性网卡

CentOS系统的辅助弹性网卡一键配置网络,简化操作。

multi-nic-util

配置IPv6

ECS实例一键配置或清理IPv6网络。

ecs-utils-ipv6

配置网卡多队列

将网卡队列数设置为最大支持值,提升网络性能。

ecs_tools_multiqueue

Intel超线程HT管理

在裸金属实例上关闭Intel超线程(Hyper-Threading)功能。

ecs_disable_intel_hyper-threading

快速配置NVMe驱动

快速配置NVMe驱动,确保系统在支持NVMe的实例上正常运行。

ecs_nvme_config

管理安全补丁

扫描并安装系统缺失的安全补丁,提升实例安全性。

patch_manager

配置kdump

kdumpLinux内核的一项功能,用于在发生内核崩溃时生成核心转储文件,便于后续分析和故障排查。通过云助手ecs_dump_config插件,可以快速开启、关闭或查询kdump功能。

  1. 前往ECS控制台-实例

  2. 在页面左侧顶部,选择目标资源所在的资源组和地域。地域

  3. 选择目标实例,点击远程连接使用Workbench终端连接登录Linux实例

  4. 配置kdump。

    • 开启dump

      sudo acs-plugin-manager --exec --plugin=ecs_dump_config --params --enable
    • 关闭dump

      sudo acs-plugin-manager --exec --plugin=ecs_dump_config --params --disable
    • 查询dump状态

      sudo acs-plugin-manager --exec --plugin=ecs_dump_config --params --status

一键配置辅助弹性网卡

在为ECS实例添加辅助弹性网卡后,通常需要手动配置网络参数。如果是CentOS系统,可使用云助手multi-nic-util插件,可实现网卡的一键网络配置,简化操作流程。

  1. 使用Workbench终端连接登录Linux实例

  2. 执行以下命令一键配置辅助弹性网卡。

    sudo acs-plugin-manager --exec --plugin=multi-nic-util

配置IPv6

通过云助手ecs-utils-ipv6插件,可为已分配IPv6地址的ECS实例一键配置IPv6网络,或为未分配IPv6地址的实例清理IPv6配置。插件支持自动配置、手动配置、开启或关闭IPv6功能。

  1. 使用Workbench终端连接登录Linux实例

  2. 配置IPv6。

    • 开启IPv6

      sudo acs-plugin-manager --exec --plugin=ecs-utils-ipv6 --params --enable
    • 关闭IPv6

      sudo acs-plugin-manager --exec --plugin=ecs-utils-ipv6 --params --disable
    • 自动配置IPv6

      sudo acs-plugin-manager --exec --plugin=ecs-utils-ipv6
    • 手动配置IPv6

      sudo acs-plugin-manager --exec --plugin=ecs-utils-ipv6 --params --static,<dev>,<ip6s>,<prefix_len>,<gw6>
      <network_interface>:目标网络接口名称(如eth0
      <ipv6_address>:要配置的IPv6地址
      <prefix_length>:IPv6地址的前缀长度(如64
      <ipv6_gateway>:IPv6网关地址

配置网卡多队列

网卡多队列功能可将网络中断分散到多个CPU上处理,从而提升网络性能。通过云助手ecs_tools_multiqueue插件,可一键将所有网卡的队列数设置为最大支持值。

  1. 使用Workbench终端连接登录Linux实例

  2. 执行以下命令,将所有网卡的队列数设置为最大支持值。

    sudo acs-plugin-manager --exec --plugin=ecs_tools_multiqueue

Intel超线程HT管理

在部分裸金属实例中,业务场景可能需要关闭Intel超线程(Hyper-Threading)功能。通过云助手ecs_disable_intel_hyper-threading插件,可实现该功能的关闭。

该插件仅适用于裸金属实例规格,非裸金属实例执行时会提示不支持。
  1. 使用Workbench终端连接登录Linux实例

  2. 执行以下命令,关闭Intel超线程。

    sudo acs-plugin-manager --exec --plugin=ecs_disable_intel_hyper-threading

快速配置NVMe驱动

云助手ecs_nvme_config插件,用于快速配置NVMe驱动。该功能适用于支持的操作系统,如Alibaba Cloud Linux、CentOS、Ubuntu等。

ecs_nvme_config插件支持的操作系统情况

  • ecs_nvme_config插件支持的操作系统:

    • Alibaba Cloud Linux

    • Anolis OS

    • CentOS/CentOS Stream

    • Debian

    • Ubuntu

    • OpenSUSE

    • SUSE Linux Enterprise Server

    • Red Hat Enterprise Linux

    • Fedora

    • Rocky Linux

    • AlmaLinux

  • 不支持ecs_nvme_config插件的操作系统版本信息:

    • CentOS/Red Hat Enterprise Linux:低于6.6

    • Debian:低于9

    • Ubuntu:低于16

    • OpenSUSE:42

    • SUSE Linux Enterprise Server:低于11.4

  1. 使用Workbench终端连接登录Linux实例

  2. 检查插件是否可用。

    如果未安装云助手Agent需先进行安装。如果插件列表中包含ecs_nvme_config,则可继续下一步。
    acs-plugin-manager --list
  3. 检查NVMe模块状态。

    sudo acs-plugin-manager --exec --plugin ecs_nvme_config --params --check
    • 若提示以下信息,表示已配置成功:

      [SUCCESS]  Summary: Your image can Runnig on nvme instance
    • 若提示错误信息,则需执行配置操作:

      sudo acs-plugin-manager --exec --plugin ecs_nvme_config --params --fix
  4. 重启实例。

    sudo reboot
  5. 再次检查配置状态。

    sudo acs-plugin-manager --exec --plugin ecs_nvme_config --params --check

    成功配置后,输出如下:

    [OK]  1.initrd/initramfs already contain nvme module;
    
    [OK]  2.fstab file looks fine and does not contain any device names;
    
    [OK]  3.The nvme parameters already included.
    
    [SUCCESS]  Summary: Your image can Runnig on nvme instance

管理安全补丁

为保障ECS实例的安全性,建议定期扫描并安装系统缺失的安全补丁。通过云助手patch_manager插件,可实现补丁的扫描和安装。

  1. 使用Workbench终端连接登录Linux实例

  2. 管理安全补丁。

    • 扫描安全补丁

      sudo acs-plugin-manager --exec --plugin=patch_manager --params --operation,scan
    • 安装安全补丁,系统根据需要自动重启ECS实例

      sudo acs-plugin-manager --exec --plugin=patch_manager --params --operation,install,--reboot,ifneed
    • 只安装安全补丁,不重启ECS实例

      sudo acs-plugin-manager --exec --plugin=patch_manager --params --operation,install,--reboot,no