文档

可观测

更新时间:

变更观测是指在变更执行过程中,任何因变更触发的且预期外的线上业务异常(含监控、报警、日志等)均能实时被变更执行人感知的能力。是变更人主动并及时发现问题,降低重大故障影响半径的有效方式之一。变更观测是变更执行人的基础工具之一,变更可观测能力是对变更系统最基础的要求。

变更观测三大原则

  • 变更执行期间需有效观测:变更系统逐步实现强管控,所有变更从第1批执行开始时即要启动变更观测。

  • 变更执行每批次灰度均需观测:变更执行时需全程进行变更观测,确保验证该批次变更观测无异常后再进行下一批次变更。

  • 每批次变更需保证充分的观测间隔时长:各业务可结合自身经验和特性,推行适合各业务的不同观测间隔时长,尽量避免观测不到位问题。

可观测层次

可观测覆盖可以综合参考监控的对象和方式,将可观测划分为4层:

  • 基础设施监控:主要关注机房、网络等基础设施的运行情况。 在云上的Kubernetes环境也指宿主机节点、网络基础组件的性能监控等。这部分可观测可通过阿里云云监控实现。如查看节点负载、CPU、内存、网络等指标的使用率等。

  • 系统应用监控:主要关注实例、中间件等基础服务的运行情况。这部分可观测也可通过云监控实现。同时阿里云托管版Prometheus(ARMS Prometheus)也可满足云原生指标可观测需求。

  • 业务监控:通过采集应用程序中的业务状态数据,如接口的请求次数、成功率和响应时长等,产出业务级别的监控指标,以数据反映业务健康状况,从而完成对业务的监控。阿里云ARMS以代码无侵入的方式,可视化定义业务请求,提供贴合业务的丰富性能指标与诊断能力。也可使用阿里云日志服务SLS (Log Service)作为自定义指标的观测方案。用户可通过自定义应用系统的内容、格式,并通过日志服务收集,并在日志服务中配置业务大盘,观测自己的业务情况,或做系统审计。

  • 用户反馈监控:主要从舆情、客诉等反向收集用户对功能可用性的反馈,作为兜底监控。

  • 本页导读
文档反馈