Insights是一个对应用进行定时巡检的智能运维工具。针对巡检后发现的问题,Insights可以给出具体的根因分析和建议,同时支持订阅告警。

功能说明

Insights巡检问题主要针对应用性能指标RT(平均响应时间)、Error(应用错误数)、QPS(平均请求量)进行阈值检测校验。您无需做任何设置,Insights将会基于应用历史数据并结合智能算法完成巡检,同时您可以订阅不同的异常事件类型。

目前Insights支持巡检以下类型的事件。

事件类型 事件描述
应用服务整体平均响应时间突增 基于服务历史3小时数据,判断最近5分钟平均响应时间是否有异常突增点。目前服务支持按照HTTP、Dubbo、HSF和MQ进行分类查询,并给出具体根因结果。
应用服务整体错误率突增 基于服务历史3小时数据,判断最近5分钟应用错误率是否有异常突增点。目前服务支持按照HTTP、Dubbo、HSF和MQ进行分类查询,并给出具体根因结果。
Top N接口平均响应时间突增 默认对流量Top 5的服务进行检测,基于服务历史3小时数据,判断最近5分钟平均响应时间是否有异常突增点,并给出具体根因结果,具体巡检接口可以在巡检配置模块修改定制。更多信息,请参见巡检配置
Top N接口错误率突增 默认对流量Top 5的服务进行检测,基于服务历史3小时数据,判断最近5分钟错误率是否有异常突增点,并给出具体根因结果,具体巡检接口可以在巡检配置模块修改定制。更多信息,请参见巡检配置
流量不均 基于应用最近30分钟某个类型服务(HTTP、Dubbo、HSF)的流量数据,判断应用是否存在流量不均异常。默认单机5分钟流量不小于1000,默认最大流量和最小流量差30%。
Pod pending突增 基于集群10分钟内Pod pending事件量判断,默认情况集群10分钟内Pod pending事件量超过3个,就会对该集群的资源以及关联事件进行根因分析。