本文介绍多活实例的容灾大屏功能。容灾大屏展示的是多活实例的容灾架构拓扑,以及逻辑单元和逻辑单元格中各层的监控数据。
前提条件
容灾架构拓扑图使用指南
容灾大屏仅展示当前多活实例对应的容灾架构。
同城多活容灾
登录多活容灾MSHA控制台。
在左侧导航栏,单击多活实例。
在多活实例页面,单击目标实例的实例名称/ID进入多活实例详情页面。
在多活实例详情页面,选择
,然后单击同城多活容灾。在单元右侧的下拉列表中选择不同的单元,切换至不同单元下的容灾架构拓扑图。
在同城多活容灾页签,查看业务概况和告警事件。
在右侧容灾拓扑图的终端用户区域,单击查看,查看本单元的域名信息。
说明终端用户两侧的百分比,代表本单元格的流量比例。各模块指标含义,请参见附录。
异地双活容灾
登录多活容灾MSHA控制台。
在左侧导航栏,单击多活实例。
在多活实例页面,单击目标实例的实例名称/ID进入多活实例详情页面。
在多活实例详情页面,选择
,单击异地双活容灾。在单元右侧的下拉列表中选择不同的单元,切换至不同单元下的容灾架构拓扑图。
在同城多活容灾页签,查看业务概况和告警事件。
在右侧容灾拓扑图的终端用户区域,单击查看,查看本业务LDC的域名信息。
在流量比例下方查看本单元的精准路由/范围路由信息,单击查看,查看本单元的子域名信息。
说明终端用户上方展示了当前业务LDC中的同步链路总数和同步链路异常百分比。
终端用户两侧的百分比,表示本单元的流量比例。
各模块指标含义,请参见附录。
异地应用双活容灾
登录多活容灾MSHA控制台。
在左侧导航栏,单击多活实例。
在多活实例页面,单击目标实例的实例名称/ID进入多活实例详情页面。
在多活实例详情页面,选择
,单击异地应用双活容灾。在单元右侧的下拉列表中选择不同的单元,切换至不同单元下的容灾架构拓扑图。
在同城多活容灾页签,查看业务概况和告警事件。
在右侧容灾拓扑图的终端用户区域,单击查看,查看本业务LDC的域名信息。
在流量比例下方查看本单元的精准路由/范围路由信息,单击查看,查看本单元的子域名信息。
说明终端用户上方展示了当前业务LDC中的同步链路总数和同步链路异常百分比。
终端用户两侧的百分比,表示本单元的流量比例。
各模块指标含义,请参见附录。
附录
瞬时监控值
容灾拓扑图上,各个模块展示的数值,代表监控指标当前时刻的瞬时值。
模块 | 监控指标名称 | 监控指标含义 | 所属架构 |
接入层/MSFE | QPS | 接入层集群请求的次数/秒钟,即QPS=并发数/平均响应时间。 |
|
RT | 接入层集群的平均响应时间,即处理请求快慢。 | ||
错误率 | 接入层集群请求的错误率,错误率=请求错误数/请求总数。 | ||
应用实例 | 该单元实例总数 | 应用节点页面中,本单元的应用数量。 |
|
SDK&Agent切面错误率 | SDK切面执行错误的比例,错误率=切面执行错误数/切面执行总数。 | ||
SDK&Agent调用错误率 | 使用SDK的用户调用执行错误的比例,错误率=切面执行错误数/切面执行总数。 | ||
服务层 | 消费者调用总QPM | 消费者用户请求的次数/分钟,即QPM=(并发数/平均响应时间)×60。 |
|
提供者调用总QPM | 提供者用户请求的次数/分钟,即QPM=(并发数/平均响应时间)×60。 | ||
消费者切面总QPM | 消费者SDK切面调用的次数/分钟,即QPM=(并发数/平均响应时间)×60。 | ||
提供者切面总QPM | 提供者SDK切面调用的次数/分钟,即QPM=(并发数/平均响应时间)×60。 | ||
服务同步次数 | 注册中心同步服务的同步次数/分钟。 |
| |
服务同步错误数 | 注册中心同步服务的同步错误次数/分钟。 | ||
消息层 | 消费者调用总QPM | 消费者用户请求的次数/分钟,即QPM=(并发数/平均响应时间)×60。 |
|
提供者调用总QPM | 提供者用户请求的次数/分钟,即QPM=(并发数/平均响应时间)×60。 | ||
消费者切面总QPM | 消费者SDK切面调用的次数/分钟,即QPM=(并发数/平均响应时间)×60。 | ||
提供者切面总QPM | 提供者SDK切面调用的次数/分钟,即QPM=(并发数/平均响应时间)×60。 | ||
数据层 | QPS | 数据层请求的次数/秒钟,即QPS=并发数/平均响应时间。 |
|
禁写数 | 数据库切流态禁写数/分钟。 | ||
SQL异常率 | SQL执行错误率,错误率=SQL执行错误数/SQL执行总数。 |
监控图表
在容灾大屏页面,单击容灾拓扑图各个模块右上角的监控详情,查看各层的监控图表。
模块 | 监控指标名称 | 监控指标含义 | 所属架构 |
接入层/MSFE | 应用负载QPS | 接入层集群的请求次数/秒钟,即QPS=本单元的请求次数/秒钟+对端单元纠偏到本单元的请求次数/秒钟。 |
重要 业务LDC下的单元数量必须为2。 |
接入层负载QPS | 接入层集群请求的数量/秒钟,即QPS=并发数/平均响应时间。 |
| |
RT(ms) | 接入层集群的平均响应时间,即处理请求快慢。 | ||
错误率(%) | 接入层集群请求的错误率,错误率=请求错误数/请求总数。 | ||
应用实例 | SDK&Agent切面调用内核错误数 | SDK切面执行错误的次数/分钟。 |
|
SDK&Agent用户调用内核错误率 | 使用SDK的用户调用执行错误的次数/分钟。 | ||
服务层 | 微服务Consumer用户调用次数/每分钟 | 消费者用户请求的次数/分钟,即(并发数/平均响应时间)×60。 |
|
微服务Consumer用户调用平均RT(ms)/每分钟 | 消费者用户请求的平均响应时间/分钟。 | ||
微服务Provider用户调用次数/每分钟 | 提供者用户请求的次数/分钟,即(并发数/平均响应时间)×60。 | ||
微服务Provider用户调用平均RT(ms)/每分钟 | 提供者用户请求的平均响应时间/分钟。 | ||
微服务Consumer切面调用次数/每分钟 | 消费者SDK切面调用的次数/分钟,即(并发数/平均响应时间)×60。 | ||
微服务Consumer切面调用平均RT(ms)/每分钟 | 消费者SDK切面调用的平均响应时间/分钟。 | ||
微服务Provider切面调用次数/每分钟 | 提供者SDK切面调用的次数/分钟,即(并发数/平均响应时间)×60。 | ||
微服务Provider切面调用平均RT(ms)/每分钟 | 提供者SDK切面调用的平均响应时间/分钟。 | ||
注册中心元数据缺少MSHA单元标的Provider数量/每分钟 | 缺少MSHA单元标的提供者数量/分钟。 | ||
服务同步次数/分钟 | 注册中心同步服务的同步次数/分钟。 |
| |
服务同步错误数/分钟 | 注册中心同步服务的同步错误次数/分钟。 | ||
服务同步平均RT(ms)/分钟 | 注册中心同步服务的同步任务的平均响应时间/分钟。 | ||
消息层 | 消息Pub用户调用次数 | 提供者用户请求的次数/分钟,即(并发数/平均响应时间)×60。 |
|
消息Pub用户调用平均RT(ms) | 提供者用户请求的平均响应时间/分钟。 | ||
消息Sub用户调用次数 | 消费者用户请求的次数/分钟,即(并发数/平均响应时间)×60。 | ||
消息Sub用户调用平均RT(ms) | 消费者用户请求的平均响应时间/分钟。 | ||
消息Pub切面调用次数 | 提供者SDK切面调用的次数/分钟,即(并发数/平均响应时间)×60。 | ||
消息Pub切面调用平均RT(ms) | 提供者SDK切面调用的平均响应时间/分钟。 | ||
消息Sub切面调用次数 | 消费者SDK切面调用的次数/分钟,即(并发数/平均响应时间)×60。 | ||
消息Sub切面调用平均RT(ms) | 消费者SDK切面调用的平均响应时间/分钟。 | ||
数据层-Redis | Redis命令执行切面调用次数/每分钟 | Redis请求的切面调用次数/分钟,即(并发数/平均响应时间)×60。 |
|
Redis命令执行切面调用平均RT(ms)/每分钟 | Redis请求的切面调用平均响应时间/分钟。 | ||
Redis命令执行切流态禁写数/每分钟 | Redis请求切流态触发禁写的次数/分钟。 | ||
数据层-Jdbc | 数据库JDBC用户调用次数/分钟 | 经过SDK的用户JDBC请求的次数/分钟,即(并发数/平均响应时间)×60。 |
|
数据库JDBC用户调用平均RT(ms)/分钟 | 经过SDK的用户JDBC请求的平均响应时间/分钟。 | ||
数据库JDBC切面调用次数/分钟 | JDBC请求的切面调用次数/分钟,即(并发数/平均响应时间)×60。 | ||
数据库JDBC切面调用平均RT(ms)/分钟 | JDBC请求的切面调用平均响应时间/分钟。 | ||
数据库JDBC日常态错误流量禁写数/分钟 | JDBC请求日常态触发禁写的次数/分钟。 | ||
数据库JDBC切流态禁写数/分钟 | JDBC请求切流态触发禁写的次数/分钟。 |