容灾大屏

本文介绍多活实例的容灾大屏功能。容灾大屏展示的是多活实例的容灾架构拓扑,以及逻辑单元和逻辑单元格中各层的监控数据。

前提条件

  1. 已创建多活实例。具体操作,请参见多活实例

  2. (可选)已安装应用节点。具体操作,请参见应用节点

容灾架构拓扑图使用指南

说明

容灾大屏仅展示当前多活实例对应的容灾架构。

同城多活容灾

  1. 登录多活容灾MSHA控制台

  2. 在左侧导航栏,单击多活实例

  3. 多活实例页面,单击目标实例的实例名称/ID进入多活实例详情页面。

  4. 在多活实例详情页面,选择容灾观测 > 容灾大屏,然后单击同城多活容灾

  5. 单元右侧的下拉列表中选择不同的单元,切换至不同单元下的容灾架构拓扑图。

  6. 同城多活容灾页签,查看业务概况告警事件

  7. 在右侧容灾拓扑图的终端用户区域,单击查看,查看本单元的域名信息。

    说明

    终端用户两侧的百分比,代表本单元格的流量比例。各模块指标含义,请参见附录

异地双活容灾

  1. 登录多活容灾MSHA控制台

  2. 在左侧导航栏,单击多活实例

  3. 多活实例页面,单击目标实例的实例名称/ID进入多活实例详情页面。

  4. 在多活实例详情页面,选择容灾观测 > 容灾大屏,单击异地双活容灾

  5. 单元右侧的下拉列表中选择不同的单元,切换至不同单元下的容灾架构拓扑图。

  6. 同城多活容灾页签,查看业务概况告警事件

  7. 在右侧容灾拓扑图的终端用户区域,单击查看,查看本业务LDC的域名信息。

  8. 流量比例下方查看本单元的精准路由/范围路由信息,单击查看,查看本单元的子域名信息。

    说明
    • 终端用户上方展示了当前业务LDC中的同步链路总数和同步链路异常百分比。

    • 终端用户两侧的百分比,表示本单元的流量比例

    • 各模块指标含义,请参见附录

异地应用双活容灾

  1. 登录多活容灾MSHA控制台

  2. 在左侧导航栏,单击多活实例

  3. 多活实例页面,单击目标实例的实例名称/ID进入多活实例详情页面。

  4. 在多活实例详情页面,选择容灾观测 > 容灾大屏,单击异地应用双活容灾

  5. 单元右侧的下拉列表中选择不同的单元,切换至不同单元下的容灾架构拓扑图。

  6. 同城多活容灾页签,查看业务概况告警事件

  7. 在右侧容灾拓扑图的终端用户区域,单击查看,查看本业务LDC的域名信息。

  8. 在流量比例下方查看本单元的精准路由/范围路由信息,单击查看,查看本单元的子域名信息。

    说明
    • 终端用户上方展示了当前业务LDC中的同步链路总数和同步链路异常百分比。

    • 终端用户两侧的百分比,表示本单元的流量比例。

    • 各模块指标含义,请参见附录

附录

瞬时监控值

容灾拓扑图上,各个模块展示的数值,代表监控指标当前时刻的瞬时值。

模块

监控指标名称

监控指标含义

所属架构

接入层/MSFE

QPS

接入层集群请求的次数/秒钟,即QPS=并发数/平均响应时间。

  • 同城多活容灾

  • 异地双活容灾

  • 异地应用双活容灾

RT

接入层集群的平均响应时间,即处理请求快慢。

错误率

接入层集群请求的错误率,错误率=请求错误数/请求总数。

应用实例

该单元实例总数

应用节点页面中,本单元的应用数量。

  • 同城多活容灾

  • 异地双活容灾

  • 异地应用双活容灾

SDK&Agent切面错误率

SDK切面执行错误的比例,错误率=切面执行错误数/切面执行总数。

SDK&Agent调用错误率

使用SDK的用户调用执行错误的比例,错误率=切面执行错误数/切面执行总数。

服务层

消费者调用总QPM

消费者用户请求的次数/分钟,即QPM=(并发数/平均响应时间)×60。

  • 同城多活容灾

    说明

    仅限同城多活SpringCloud服务、同城多活Dubbo服务和同城多活EDAS服务。

  • 异地双活容灾

    说明

    仅限异地应用多活SpringCloud服务和异地应用多活Dubbo服务。

  • 异地应用双活容灾

    说明

    仅限异地双活SpringCloud服务。

提供者调用总QPM

提供者用户请求的次数/分钟,即QPM=(并发数/平均响应时间)×60。

消费者切面总QPM

消费者SDK切面调用的次数/分钟,即QPM=(并发数/平均响应时间)×60。

提供者切面总QPM

提供者SDK切面调用的次数/分钟,即QPM=(并发数/平均响应时间)×60。

服务同步次数

注册中心同步服务的同步次数/分钟。

  • 异地双活容灾

  • 异地应用双活容灾

服务同步错误数

注册中心同步服务的同步错误次数/分钟。

消息层

消费者调用总QPM

消费者用户请求的次数/分钟,即QPM=(并发数/平均响应时间)×60。

  • 同城多活容灾

  • 异地双活容灾

  • 异地应用双活容灾

提供者调用总QPM

提供者用户请求的次数/分钟,即QPM=(并发数/平均响应时间)×60。

消费者切面总QPM

消费者SDK切面调用的次数/分钟,即QPM=(并发数/平均响应时间)×60。

提供者切面总QPM

提供者SDK切面调用的次数/分钟,即QPM=(并发数/平均响应时间)×60。

数据层

QPS

数据层请求的次数/秒钟,即QPS=并发数/平均响应时间。

  • 异地双活容灾

  • 异地应用双活容灾

禁写数

数据库切流态禁写数/分钟。

SQL异常率

SQL执行错误率,错误率=SQL执行错误数/SQL执行总数。

监控图表

容灾大屏页面,单击容灾拓扑图各个模块右上角的监控详情,查看各层的监控图表

模块

监控指标名称

监控指标含义

所属架构

接入层/MSFE

应用负载QPS

接入层集群的请求次数/秒钟,即QPS=本单元的请求次数/秒钟+对端单元纠偏到本单元的请求次数/秒钟。

  • 异地双活容灾

  • 异地应用双活容灾

重要

业务LDC下的单元数量必须为2。

接入层负载QPS

接入层集群请求的数量/秒钟,即QPS=并发数/平均响应时间。

  • 同城多活容灾

  • 异地双活容灾

  • 异地应用双活容灾

RT(ms)

接入层集群的平均响应时间,即处理请求快慢。

错误率(%)

接入层集群请求的错误率,错误率=请求错误数/请求总数。

应用实例

SDK&Agent切面调用内核错误数

SDK切面执行错误的次数/分钟。

  • 同城多活容灾

  • 异地双活容灾

  • 异地应用双活容灾

SDK&Agent用户调用内核错误率

使用SDK的用户调用执行错误的次数/分钟。

服务层

微服务Consumer用户调用次数/每分钟

消费者用户请求的次数/分钟,即(并发数/平均响应时间)×60。

  • 同城多活容灾

    说明

    仅限同城多活SpringCloud服务、同城多活Dubbo服务、同城多活EDAS服务。

  • 异地双活容灾

    说明

    仅限异地应用多活SpringCloud服务、异地应用多活Dubbo服务。

  • 异地应用双活容灾

    说明

    仅限异地双活SpringCloud服务。

微服务Consumer用户调用平均RT(ms)/每分钟

消费者用户请求的平均响应时间/分钟。

微服务Provider用户调用次数/每分钟

提供者用户请求的次数/分钟,即(并发数/平均响应时间)×60。

微服务Provider用户调用平均RT(ms)/每分钟

提供者用户请求的平均响应时间/分钟。

微服务Consumer切面调用次数/每分钟

消费者SDK切面调用的次数/分钟,即(并发数/平均响应时间)×60。

微服务Consumer切面调用平均RT(ms)/每分钟

消费者SDK切面调用的平均响应时间/分钟。

微服务Provider切面调用次数/每分钟

提供者SDK切面调用的次数/分钟,即(并发数/平均响应时间)×60。

微服务Provider切面调用平均RT(ms)/每分钟

提供者SDK切面调用的平均响应时间/分钟。

注册中心元数据缺少MSHA单元标的Provider数量/每分钟

缺少MSHA单元标的提供者数量/分钟。

服务同步次数/分钟

注册中心同步服务的同步次数/分钟。

  • 异地双活容灾

  • 异地应用双活容灾

服务同步错误数/分钟

注册中心同步服务的同步错误次数/分钟。

服务同步平均RT(ms)/分钟

注册中心同步服务的同步任务的平均响应时间/分钟。

消息层

消息Pub用户调用次数

提供者用户请求的次数/分钟,即(并发数/平均响应时间)×60。

  • 同城多活容灾

  • 异地双活容灾

  • 异地应用双活容灾

消息Pub用户调用平均RT(ms)

提供者用户请求的平均响应时间/分钟。

消息Sub用户调用次数

消费者用户请求的次数/分钟,即(并发数/平均响应时间)×60。

消息Sub用户调用平均RT(ms)

消费者用户请求的平均响应时间/分钟。

消息Pub切面调用次数

提供者SDK切面调用的次数/分钟,即(并发数/平均响应时间)×60。

消息Pub切面调用平均RT(ms)

提供者SDK切面调用的平均响应时间/分钟。

消息Sub切面调用次数

消费者SDK切面调用的次数/分钟,即(并发数/平均响应时间)×60。

消息Sub切面调用平均RT(ms)

消费者SDK切面调用的平均响应时间/分钟。

数据层-Redis

Redis命令执行切面调用次数/每分钟

Redis请求的切面调用次数/分钟,即(并发数/平均响应时间)×60。

  • 异地双活容灾

  • 异地应用双活容灾

Redis命令执行切面调用平均RT(ms)/每分钟

Redis请求的切面调用平均响应时间/分钟。

Redis命令执行切流态禁写数/每分钟

Redis请求切流态触发禁写的次数/分钟。

数据层-Jdbc

数据库JDBC用户调用次数/分钟

经过SDK的用户JDBC请求的次数/分钟,即(并发数/平均响应时间)×60。

  • 异地双活容灾

  • 异地应用双活容灾

数据库JDBC用户调用平均RT(ms)/分钟

经过SDK的用户JDBC请求的平均响应时间/分钟。

数据库JDBC切面调用次数/分钟

JDBC请求的切面调用次数/分钟,即(并发数/平均响应时间)×60。

数据库JDBC切面调用平均RT(ms)/分钟

JDBC请求的切面调用平均响应时间/分钟。

数据库JDBC日常态错误流量禁写数/分钟

JDBC请求日常态触发禁写的次数/分钟。

数据库JDBC切流态禁写数/分钟

JDBC请求切流态触发禁写的次数/分钟。