AnalyticDB MySQL版集群内部对多种数据进行了采集,服务于监控告警系统,确保对故障问题可追溯和可排查。

时序数据采集

进程时序数据
  • 计算资源包括:CPU使用率。
  • 存储资源包括:IO吞吐、IOUtil、IOPS、存储空间使用量、存储空间使用率。
  • 内存资源包括:内存总量、内存可用量、内存使用率。
服务时序数据

在服务级别根据进程的角色不同,对各类时序数据进行了采集。

  • Controller相关的时序数据主要包括:QPS、查询RT、QueueTime、PlanningTime查询失败率等查询相关的时序指标,以及TPS、索引build任务个数、写入RT等数据写入相关时序指标。
  • Executor节点的主要时序指标包括Split运行个数、内存池使用量、内存池使用率等相关信息。
  • Worker相关的时序指标主要包括shard状态等。

日志数据采集

内部的各类日志会被采集并发送到SLS日志服务系统中进行统一的存储和加工,日志数据主要包括:

  • 审计日志:用于记录用户的所有的操作行为,例如DDL操作和DML操作等。
  • 查询详情日志:用于记录一条查询在执行过程中的详细信息,包括执行计划、各节点上内存消耗、CPU消耗等。
  • 存储日志:用于记录一条查询在从存储层读取数据过程中产生的详细信息,例如索引检索的耗时、block读取的耗时等。