当您需要修改实例或节点的配置,或者遇到集群或节点出现异常等情况时,可能需要重启阿里云Elasticsearch实例或节点。本文介绍如何通过控制台重启阿里云Elasticsearch实例或节点。
前提条件
确保实例的状态为正常(绿色)、索引至少包含1个副本、资源使用率不是很高。
重要对于多可用区实例,在变更时,需要确保集群中任意一个索引的副本数都小于可用区数。待变更完成后,您可以根据业务手动增加副本数。详细信息请参见索引模板。
查看索引副本:登录对应实例的Kibana控制台(登录Kibana控制台),执行
GET _cat/indices?v
命令,在返回结果中查看对应索引的rep值,≥1表示该索引至少包含一个副本。查看资源使用率:在集群监控页面查看,例如节点CPU使用率为80%左右,节点HeapMemory使用率为50%左右,节点load_1m低于当前数据节点的CPU核数。详细信息,请参见指标含义与异常处理建议。
在Kibana控制台执行以下命令,检查集群中是否存在状态为close的索引。如果存在,需要将对应索引的状态暂时设置为open,否则变更不成功。
查看索引状态
GET /_cat/indices?v
将close状态的索引暂时设置为open状态
POST /<index_name>/_open
<index_name>需要替换为状态为close的索引名称。
注意事项
如果集群整体负载不高且索引存在副本分片,一般情况下重启过程中可对外持续提供服务。但在某些场景下,重启过程中可能会出现访问超时,例如强制重启并发度高、集群负载很高并且已经存在集群访问不可用的情况、没有副本分片、在重启或强制重启过程中存在大量的写入和查询等场景,建议重启前先在客户端设计好重试机制并且在业务低峰期进行操作。
操作步骤
- 登录阿里云Elasticsearch控制台。
- 在左侧导航栏,单击Elasticsearch实例。
- 进入目标实例。
- 在顶部菜单栏处,选择资源组和地域。
- 在Elasticsearch实例中单击目标实例ID。
在基本信息页面,单击右上角的重启。
在重启对话框中,配置重启参数。
参数
说明
操作类型
支持实例重启、节点重启和角色节点重启:
实例重启:重启实例中所包含的所有节点。
节点重启:重启所选节点。
角色节点重启:重启所选的角色节点。
选择节点
选择待重启的节点或角色节点。仅当操作类型为节点重启或角色节点重启时显示。具体说明如下:
操作类型为节点重启时:选择待重启的节点,支持选择多个节点,实现批量重启。
操作类型为角色节点重启时:选择待重启的角色节点,例如数据节点、Kibana节点等。支持选择多个角色节点。
蓝绿变更
选择是否进行蓝绿变更。仅当操作类型为节点重启或角色节点重启时显示。
选择蓝绿变更后进行重启,阿里云Elasticsearch会在集群中添加一个新节点,将原节点上的数据迁移到新节点后,再将原节点删除。当集群中单个节点的性能不佳时,例如CPU使用率持续高,可优先选择蓝绿变更功能。
重要请确保实例处于正常(绿色)状态,以正常的方式触发蓝绿变更重启。使用蓝绿变更时,不允许对实例进行强制重启。
勾选蓝绿变更后进行重启,会导致节点IP地址发生变化。如果在集群配置中指定了节点IP地址,请在变更完成后及时更新。
1核2 GB规格的实例不支持蓝绿变更。如果要进行蓝绿变更,需要将实例升配至2核4 GB及以上规格,具体操作请参见升配集群。
重启方式
支持重启和强制重启:
重启:当实例的状态为正常(绿色)时,才可进行重启,否则需要进行强制重启。实例在重启过程中可持续提供服务(需要满足上文的前提条件),但耗时较长。
重要节点在重启期间,对应的CPU和内存使用率会存在临时突增的情况,可能会造成服务抖动,正常情况下过一段时间后会恢复正常。
目前阿里云Elasticsearch实例的重启耗时与集群规模等因素有关。您可以在任务列表中查看实例的重启进度。
强制重启:当实例显示为非正常状态(黄色或红色),此时将不支持重启操作,需要进行强制重启。
重要当磁盘的使用率超过cluster.routing.allocation.disk.watermark.low的配置时,可能会导致Elasticsearch实例的状态变为非正常状态(黄色或红色)。当实例处于非正常状态时,不建议对实例进行节点扩容、磁盘扩容、重启、修改密码或其他变更配置类的操作,请务必保证实例的状态变为正常(绿色)后再进行这些操作。
设置并发度
并发度是指并发重启的节点数,默认值为
(1/实例总节点数)*100%
。例如,并发度为10%,表示同时重启集群中10%的节点。仅当重启方式为强制重启时显示该参数。
提升并发度可以显著加快实例强制重启的速度,但并发度越高,强制重启的影响也越大。如果并发度为100%,将同时重启所有节点,导致集群无法访问,未写入磁盘的缓存数据可能存在丢失情况,一般建议在集群异常需紧急恢复场景应用。
说明预计所需总时间表示按照前一次单节点重启时间的均值,乘以总节点个数进行评估。可能存在误差,实际以真实重启时间为准。
单击确认,开始重启操作。
说明如果是强制重启,需要先勾选确认要强制重启,进行重启确认。
重启过程中,实例状态显示为生效中。在页面右上角单击图标,查看变更进度。重启成功后,实例状态显示为正常。