操作系统控制台

操作系统控制台提供了操作系统相关的管理功能,包括运维管理、操作系统智能助手、扩展组件管理、订阅等功能。

一级功能

二级功能

功能介绍

系统概览

系统概览

操作系统健康度通过关键监控指标,整体反映一个集群、节点或容器的健康状态。在掌握整体健康状况的基础上,进一步分析影响系统健康的因素。

系统诊断

内存全景分析

内存全景分析功能适用于内存占用较高但无法明确识别具体内存占用情况的场景。

OOM诊断

通过OOM(Out Of Memory)内存诊断功能,对操作系统发生OOM的原因进行分析和界定。

IO流量分析

IO流量分析主要分析系统中IO流量的归属,通常用于解决IO Burst问题。

IO一键诊断

IO一键诊断专注于高频出现的IO高延迟、IO BurstIO Wait等问题。该功能支持对各种IO问题类型的识别,并调用相应的子工具对IO数据进行分析,从而提供结论和建议。帮助用户在实际使用场景中有效分析和解决IO相关问题。

丢包诊断

操作系统内核网络丢包是指在数据包通过网络传输过程中,通过丢包诊断来分析在操作系统内核层面发生的丢失现象并提出相应的解决方案。

网络抖动

帮助您在ECS实例遇到网络抖动问题时,进行分析并确定抖动的具体原因。

调度抖动诊断

调度抖动诊断功能旨在分析CPU长时间不进行任务切换导致用户态业务进程长期得不到调度引发的问题(例如内存回收等场景)。

系统负载诊断

系统负载诊断的目的是分析系统在一分钟内的平均负载(load1指标)异常原因及其详细信息,并提供相应的处理建议。

系统观测

进程热点追踪

进程热点追踪用于单个节点在某一时段的热点分析,并生成进程的调用图谱,帮助开发人员快速识别应用程序中的性能瓶颈和热点问题。

热点对比分析

在应用性能波动等因素导致系统指标异常的情况下,通过热点对比时序图和差分火焰图的方式,协助用户识别实例中相同或不同进程在时间维度上的热点差异。

AI性能与诊断

AI观测

AI Infra观测通过动态注入GPU Profiling采集AI作业运行过程中的算子、调度以及Kernel函数等信息进行综合分析,以实现零侵入、高灵活性和低开销的AI观测作业。

AI诊断

AI诊断功能旨在对AI业务场景中的系统异常进行诊断,并生成相关的诊断结论、GPU运行状态及AI作业运行状态,以便帮助开发人员快速定位应用中的问题。

AI火焰图

AI火焰图帮助分析AI应用在CPUGPU上的性能热点,开启AI火焰图可以让开发人员直观查看进程的函数调用栈及时间消耗分布,定位性能瓶颈,优化AI任务执行效率。

系统管理

系统管理

系统管理展示了操作系统控制台中实例的纳管状态及其他相关信息。仅纳管的实例才能使用操作系统控制台的相关功能。

组件管理

组件管理

组件管理是负责操作系统扩展组件的模块,能够对节点(ECS实例)或ACK集群下的ECS实例进行相关组件的安装、升级和卸载等操作。

订阅管理

订阅管理

订阅是指在阿里云ECS实例上访问阿里云私有yum仓库的权限。通过订阅管理功能,您可以查看ECS实例当前的订阅状态,并根据业务需求为ECS实例创建订阅项,从而获取访问私有yum仓库的权限。