阿里云首页 金融分布式架构 SOFAStack

应用总览

应用监控提供了应用分析能力,将应用相关的 Error、Service、SAL、CAL、DAL、OS、JVM、CE Thread、MOSN、端口等服务指标,和 CPU 、内存、磁盘等系统指标进行聚合透出,从 IDC/LDC/单机 的空间分布和时间分布上进行对比分析,一个入口总览分析应用相关的所有监控数据。主要监控指标如下:

  • Error 系统错误量

  • PV 页面访问量

  • Service 被外部调用的服务量

  • SAL 调用外部的服务量

  • DAL 数据库访问

  • SQL 耗时监测

  • 系统指标监控

  • 可用性(端口)

  • MOSN 指标

1

设置查询条件

支持设置如下查询条件。

  • 输入或重置过滤的正则表达式。

  • 选择对比曲线和时间跨度。

  • 回放:回放指定时间段的数据。

  • 自动更新:定时刷新页面数据。

编辑总览页

单击 编辑,可进行自定义配置和添加告警套餐,示例如下:

1
说明

系统会根据日志的编码自动适配,一般不用手动填写 日志编码

自定义配置

自定义配置示例如下:

编辑-自定义配置.png

主要配置的指标包括:

  • 采集日志文件

  • 新增白名单或黑名单

  • 缓存源

  • 结果

  • 总量

  • 耗时

主要的监控指标详情见下表:

指标名称

指标说明

调用缓存服务-cal

用来监控应用访问缓存的相关指标。配置要求如下:

  • SOFA 框架中没有默认日志。

  • 自定义配置中可以使用自己设定的日志文件,要求日志文件中必须有:数据源、结果、耗时、计数。

调用 DB 服务-dal

数据库访问。用来监控应用访问数据库的相关指标,配置要求如下:

  • SOFA 框架中默认使用 /home/admin/logs/tracelog/zdal-db-stat.log

  • 自定义配置中可以使用自己设定的日志文件,要求日志文件中必须有:数据源、库、表、结果、耗时、计数。

Error-error

系统错误量。用来监控应用中错误日志数量,统计错误变化趋势。 在应用监控中,可直接单击错误查看相关日志。配置要求如下:

  • SOFA 框架中默认使用 /home/admin/logs/stderr.log/home/admin/logs/{app}/common-error.log 日志文件。

  • 自定义配置中可以使用自己设定的日志文件,对文件中的行数按分钟进行计数。

系统监控-system

用来监控应用本身所在虚拟机或 ECS 的资源情况。 包括 CPU、Load、Memory 等情况。配置要求如下:

  • 无需配置日志。

  • 打开开关即可,监控 Agent 会自动获取对应数据。

PV-pv

页面访问量。用来监控应用中页面被调用次数相关指标。配置要求如下:

  • SOFA 框架中默认使用 /home/admin/logs/tracelog/sofa-mvc-stat.log

  • 自定义配置中可以使用自己设定的日志文件,要求日志文件中必须有:url、结果、耗时、访问计数这几项指标。

调用外部服务-sal

用来监控应用调用其他服务的指标。配置要求如下:

  • SOFA 框架中默认使用 /home/admin/logs/tracelog/sofa-mvc-stat.log

  • 自定义配置中可以使用自己设定的日志文件,要求日志文件中必须有:机房、目标应用、接口、方法、结果、耗时、计数。

应用服务被调用-service

被外部调用的服务量。用来监控应用中服务被调用情况。配置要求如下:

  • SOFA 框架中默认使用 /home/admin/logs/tracelog/sofa-mvc-stat.log

  • 自定义配置中可以使用自己设定的日志文件,要求日志文件中必须有:机房、目标应用、接口、方法、结果、耗时、计数。

SQL 耗时检测-sql

用来监控应用访问数据库的 SQL 执行情况,包括查找慢 SQL。配置要求如下:

  • SOFA 框架中默认日志:/home/admin/logs/tracelog/zdal-db-digest.log

  • 自定义配置中可以使用自己设定的日志文件,要求日志文件中必须有:数据库、SQL、耗时、事务ID。

Flow Limit -flowlimit

流量监控指标。

消息发布-msgpub

消息发布监控指标。

消息订阅-msgsub

消息订阅监控指标。

JVM 监控-jvmgc

JVM 监控指标。

端口检测-checkservice

端口检测监控指标。

MOSN 应用服务被调用-mosnservice

MOSN 应用服务被调用时的监控指标。

说明

mosnservice 即 Mesh Sidecar 指标。

MOSN 调用外部服务-mosnsal

MOSN 调用外部服务时的监控指标。

MOSN 消息订阅-mosnmsgsub

MOSN 消息订阅时的监控指标。

MOSN 消息发布-mosnmsgpub

MOSN 消息发布时的监控指标。

MOSN Error-mosnerror

MOSN 错误信息监控指标。

OB Proxy 指标-odpstat

OB(OceanBase)代理监控指标。

ODP 异常-odperror

ODP(数据访问代理,Open Database Proxy)异常监控指标。

MOSN Metric 数据

MOSN Metric 数据监控指标。

ibmmqput-ibmmqput

ibm 消息 put 请求的监控指标。

ibmmqget-ibmmqget

ibm 消息 get 请求的监控指标。

告警套餐

单击告警指标中某个具体指标,可以添加告警套餐,示例如下:告警套餐配置.png

主要配置的告警套餐信息包括:

  • 告警套餐名称

  • 自定义告警时区

  • 告警等级

不同的监控指标可以应用的预警条件不同,监控指标与预警指标的对应关系如下表所示:

监控指标

告警条件

调用缓存服务-cal

缓存源、LDC 总量、IDC 总量、应用总量、服务器、应用实例

调用 DB 服务-dal

应用总量、LDC 总量、IDC 总量、数据源、服务器、应用实例

Error-error

应用总量、LDC 总量、IDC 总量、服务器、应用实例

系统监控-system

应用总量、LDC 总量、IDC 总量、服务器、应用实例、serviceidc、单机IP

PV-pv

应用总量、LDC 总量、IDC 总量、URL 总量、服务器、应用实例

调用外部服务-sal

应用总量、IDC 总量、LDC 总量、目标应用、接口方法明细、服务器、应用实例、下游应用接口方法明细

应用服务被调用-service

应用总量、LDC 总量、IDC 总量、接口方法明细、来源应用、服务器、应用实例

SQL 耗时检测-sql

应用 Top

Flow Limit -flowlimit

应用总量、LDC 总量、IDC 总量、服务器

消息发布-msgpub

应用总量、LDC 总量、IDC 总量、Topic Eventcode 总量、服务器、应用实例

消息订阅-msgsub

应用总量、LDC 总量、IDC 总量、Topic Eventcode 总量、服务器、应用实例

JVM 监控-jvmgc

单机、应用总量、机房、逻辑机房、应用实例

端口检测-checkservice

应用总量、服务器、应用端口、单机 Port

MOSN 应用服务被调用-mosnservice

应用总量、LDC 总量、IDC 总量、服务器、接口方法明细

MOSN 调用外部服务-mosnsal

应用总量、IDC 总量、LDC 总量、服务器、下游应用接口方法明细

MOSN 消息订阅-mosnmsgsub

应用总量、LDC 总量、IDC 总量、服务器、Topic Eventcode 总量

MOSN 消息发布-mosnmsgpub

应用总量、LDC 总量、IDC 总量、服务器、Topic Eventcode 总量

MOSN Error-mosnerror

应用总量、LDC 总量、IDC 总量、服务器

OB Proxy 指标-odpstat

应用总量、IDC 总量、Idc、单机、data source, sql type、错误码总量

ODP 异常-odperror

应用总量、LDC 总量、IDC 总量、服务器

MOSN Metric 数据

ibmmqput-ibmmqput

应用总量、队列维度

ibmmqget-ibmmqget

应用总量、队列维度

订阅预警

在该页面,可以新增订阅预警,也可以对已有的订阅预警进行编辑。

订阅预警示意图订阅预警1.png

添加订阅预警时,必须提供以下信息:

  • 订阅人

  • 告警等级:分为全部订阅、P0、P1、P2、P3、P4 等六个选项。

  • 通知降频:若是持续发生的告警,按照每隔 1 分钟、2 分钟、5 分钟、10 分钟、30 分钟、60 分钟的频率进行降级通知。其中每隔 1 分钟、2 分钟通知两次,每隔 5 分钟通知三次,每隔 10 分钟、30 分钟通知五次,直到每隔一个小时通知一次。包含 开启关闭 两个开关。

暂停/恢复预警

在该页面,可以对预警暂停时间及关闭原因进行选择,示例如下:暂停恢复预警 (1).png

添加标签

在该页面,可以添加标签,示例如下:添加标签 (1).png

告警历史

在该页面,可以添加查询预警历史,示例如下:

告警历史

操作历史

在该页面,可以添加查询操作历史,示例如下:

操作历史.png