智能洞察是一个对应用进行定时巡检的智能运维工具。针对巡检后发现的问题,智能洞察可以给出具体的根因分析和建议,同时支持订阅告警。
功能说明
智能洞察巡检问题主要针对应用性能指标RT(平均响应时间)、Error(应用错误数)、QPS(平均请求量)进行阈值检测校验。您无需做任何设置,智能洞察将会基于应用历史数据并结合智能算法完成巡检,同时您可以订阅不同的异常事件类型。
目前智能洞察支持巡检以下类型的事件。
事件类型 | 事件描述 |
应用服务整体平均响应时间突增 | 基于服务历史3小时数据,判断最近5分钟平均响应时间是否有异常突增点。目前服务支持按照HTTP、Dubbo、HSF和MQ进行分类查询,并给出具体根因结果。 |
应用服务整体错误率突增 | 基于服务历史3小时数据,判断最近5分钟应用错误率是否有异常突增点。目前服务支持按照HTTP、Dubbo、HSF和MQ进行分类查询,并给出具体根因结果。 |
Top N接口平均响应时间突增 | 默认对流量Top 5的服务进行检测,基于服务历史3小时数据,判断最近5分钟平均响应时间是否有异常突增点,并给出具体根因结果,具体巡检接口可以在巡检配置模块修改定制。更多信息,请参见巡检配置。 |
Top N接口错误率突增 | 默认对流量Top 5的服务进行检测,基于服务历史3小时数据,判断最近5分钟错误率是否有异常突增点,并给出具体根因结果,具体巡检接口可以在巡检配置模块修改定制。更多信息,请参见巡检配置。 |
流量不均 | 基于应用最近30分钟某个类型服务(HTTP、Dubbo、HSF)的流量数据,判断应用是否存在流量不均异常。默认单机5分钟流量不小于1000,默认最大流量和最小流量差不超过30%。 |
Pod pending突增 | 基于集群10分钟内Pod pending事件量判断,默认情况集群10分钟内Pod pending事件量超过3个,就会对该集群的资源以及关联事件进行根因分析。 |