操作系统控制台提供了操作系统相关的管理功能,包括运维管理、操作系统智能助手、扩展组件管理、订阅等功能。
一级功能 | 二级功能 | 功能介绍 | |
系统健康 | 操作系统健康度通过关键监控指标,整体反映一个集群、节点或容器的健康状态。在掌握整体健康状况的基础上,进一步分析影响系统健康的因素。 | ||
系统诊断 | 内存诊断 | 内存全景分析功能适用于内存占用较高但无法明确识别具体内存占用情况的场景。 | |
通过OOM(Out Of Memory)内存诊断功能,对操作系统发生OOM的原因进行分析和界定。 | |||
存储诊断 | IO流量分析主要分析系统中IO流量的归属,通常用于解决IO Burst问题。 | ||
IO一键诊断专注于高频出现的IO高延迟、IO Burst及IO Wait等问题。该功能支持对各种IO问题类型的识别,并调用相应的子工具对IO数据进行分析,从而提供结论和建议。帮助用户在实际使用场景中有效分析和解决IO相关问题。 | |||
网络诊断 | 操作系统内核网络丢包是指在数据包通过网络传输过程中,通过丢包诊断来分析在操作系统内核层面发生的丢失现象并提出相应的解决方案。 | ||
帮助您在ECS实例遇到网络抖动问题时,进行分析并确定抖动的具体原因。 | |||
调度诊断 | 调度抖动诊断功能旨在分析CPU长时间不进行任务切换导致用户态业务进程长期得不到调度引发的问题(例如内存回收等场景)。 | ||
系统负载诊断的目的是分析系统在一分钟内的平均负载(load1指标)异常原因及其详细信息,并提供相应的处理建议。 | |||
当ECS实例出现内核panic、内存溢出OOM(Out Of Memory)等问题,或收到系统事件通知实例出现操作系统崩溃时,可以通过宕机诊断分析系统崩溃的具体原因,并根据诊断报告中提供的修复建议进行相应的修复。 | |||
一键诊断功能适用于多内核子系统引起的系统性能问题排查,这类问题往往只是某一指标表现异常,单从某个子系统方向去排查很难定位根因,因此需要据监控日志等数据表现决策使用哪几类诊断工具,然后通过多诊断工具的诊断数据,多领域联合分析根因并给出端到端解决方案。 | |||
用于对 ACK/ACS 集群中部署的Pod进行诊断,目前主要覆盖内存相关的场景,包括内存全景分析、OOM诊断和Java应用内存诊断。 | |||
系统观测 | 进程热点追踪用于单个节点在某一时段的热点分析,并生成进程的调用图谱,帮助开发人员快速识别应用程序中的性能瓶颈和热点问题。 | ||
在应用性能波动等因素导致系统指标异常的情况下,通过热点对比时序图和差分火焰图的方式,协助用户识别实例中相同或不同进程在时间维度上的热点差异。 | |||
AI性能与诊断 | AI Infra观测通过动态注入GPU Profiling采集AI作业运行过程中的算子、调度以及Kernel函数等信息进行综合分析,以实现零侵入、高灵活性和低开销的AI观测作业。 | ||
AI诊断功能旨在对AI业务场景中的系统异常进行诊断,并生成相关的诊断结论、GPU运行状态及AI作业运行状态,以便帮助开发人员快速定位应用中的问题。 | |||
AI火焰图帮助分析AI应用在CPU与GPU上的性能热点,开启AI火焰图可以让开发人员直观查看进程的函数调用栈及时间消耗分布,定位性能瓶颈,优化AI任务执行效率。 | |||
系统管理 | 系统管理展示了操作系统控制台中实例的纳管状态及其他相关信息。仅纳管的实例才能使用操作系统控制台的相关功能。 | ||
组件管理 | 组件管理是负责操作系统扩展组件的模块,能够对节点(ECS实例)或ACK集群下的ECS实例进行相关组件的安装、升级和卸载等操作。 | ||
订阅管理 | 订阅是指在阿里云ECS实例上访问阿里云私有yum仓库的权限。通过订阅管理功能,您可以查看ECS实例当前的订阅状态,并根据业务需求为ECS实例创建订阅项,从而获取访问私有yum仓库的权限。 | ||
异常事件告警 | 通过创建告警策略并设置通知订阅,可以在系统发生CPU使用率异常时,通过钉钉、邮件或短信等方式及时收到通知,以便快速响应和处理。 | ||