操作系统控制台是阿里云官方的智能化操作系统管理与诊断平台,帮助运维和开发人员在可视化界面中完成过去需要登录服务器、组合多种命令行工具才能完成的操作系统级排查与管理工作。支持通过API、SDK、CLI、MCP等方式管理。
应用场景
日常运维:
通过系统健康快速定位服务器变慢瓶颈。
通过系统诊断自动分析进程被OOM Kill、IO毛刺、网络抖动、内存不足等疑难问题。
通过宕机诊断自动解读宕机后只有panic日志并给出修复建议。
AI/GPU场景:
AI Profiling实现零侵入采集全栈调用轨迹,分析训练慢瓶颈在通信还是算子
分布式训练被个别节点拖慢,通过GPU诊断快速定位慢节点
训练hang住,自动判断是硬件故障还是通信问题。
降低门槛: AI Agent实现自然语言排查内核级问题,获取OS专家级专业诊断建议。
地域限制
本功能目前仅支持中国内地与中国香港。
前提条件
如果您使用RAM用户,需要被授予
AliyunECSReadOnlyAccess、AliyunSubManageFullAccess和AliyunSysomFullAccess策略。首次登录操作系统控制台时,需单击开通服务以开通控制台权限。
快速开始
登录操作系统控制台。
在资源管理 > 组件管理中为目标ECS实例安装SysOM组件。
在资源管理中确认实例状态为已纳管。
进入概览或其他功能模块使用相应功能。
说明:部分诊断功能支持非纳管实例直接使用,无需提前纳管。
功能概览
控制台左侧导航菜单包含以下功能模块:
一级菜单 | 二级菜单 | 说明 |
概览 | — | 全局资源视图与快速入口 |
系统健康与诊断 | 系统健康 | 集群与节点健康度监控 |
系统诊断 | 节点诊断、Pod诊断、历史诊断 | |
进程热点分析 | 进程级性能热点追踪与火焰图 | |
热点对比分析 | 不同时刻或不同实例的热点对比 | |
GPU性能与诊断(邀测中) | GPU诊断 | AI业务场景的GPU异常诊断 |
AI Profiling | AI应用全生命周期性能观测 | |
GPU持续剖析 | CPU与GPU性能热点持续分析 | |
资源管理 | 资源管理 | 实例纳管与集群管理 |
组件管理 | SysOM等扩展组件的安装、升级、卸载 | |
异常事件告警 | 异常事件列表 | 异常事件的查询与筛选 |
策略管理 | 告警策略的创建与管理 | |
订阅管理 | — | 操作系统安全更新订阅服务 |
此外,控制台右上角提供OS Copilot智能助手对话框。
概览
概览页面提供全局资源视图,帮助快速掌握系统整体状态。
页面内容包括:
区域 | 说明 |
资源纳管情况 | 展示已纳管的集群数量和节点数量。 |
异常事件仪表盘 | 按维度展示当前异常事件数量,包括集群、节点、磁盘流量、内存、调度、网络六个维度。 |
事件告警 | 汇总展示最近的异常事件告警信息。 |
订阅服务 | 展示当前已订阅的服务(如Anolis 7安全更新订阅等)。 |
系统健康与诊断
系统健康
操作系统健康度通过关键监控指标,整体反映一个集群、节点或容器的健康状态。
主要功能:
功能 | 说明 |
集群健康分 | 支持选择纳管的集群,展示集群健康评分和集群健康指标,用于整体判断集群的健康程度。 |
节点总数与资源监控 | 展示节点总数分布,以及CPU(利用率、分配率)、内存(利用率、分配率)、磁盘(IO利用率、分配率)等关键资源指标。 |
历史健康趋势 | 支持按近24小时、近一周、近一个月查看健康度变化趋势。 |
异常事件分析 | 展示异常事件的分布与详细信息,支持多维度筛选。集成大模型能力,对异常告警提供上下文感知的根因分析与修复建议。 |
系统诊断
系统诊断提供多维度的操作系统诊断能力,帮助快速定位和分析系统问题。通过顶部下拉菜单切换三种诊断模式:
诊断模式:
模式 | 说明 |
节点诊断 | 对单个节点进行系统诊断,支持多种诊断项。 |
Pod诊断 | 支持对ACK及ACS集群管理的Pod进行诊断,适用于容器化场景。 |
历史诊断 | 支持对ACS/ECI实例的历史OOM等问题进行诊断回溯分析。 |
诊断项(节点诊断模式):
诊断类型 | 诊断项 | 说明 | 支持架构 | 支持操作系统 |
内存诊断 | 内存全景分析 | 提供系统内存全景视图,支持Glibc本地内存分配输出、Java Native Memory分析、tcp_mem和socket泄露检测。Java内存诊断分析,支持大文件上传及堆内/堆外火焰图。 | x86、ARM64 |
|
OOM诊断 | 对OOM(Out of Memory)事件进行诊断分析,增强OOM采集功能。 | |||
存储诊断 | IO流量分析 | 分析系统IO流量的分布和使用情况。 | ||
IO一键诊断 | 专注于高频出现的IO高延迟、IO Burst及IO Wait等问题的一键快速诊断。 | |||
网络诊断 | 丢包诊断 | 诊断网络丢包原因。 | ||
网络抖动 | 分析由收包慢、软中断及调度器引起的网络抖动问题。 | |||
调度诊断 | 调度抖动诊断 | 诊断系统调度抖动问题。 | ||
系统负载诊断 | 分析系统一分钟平均负载(load1指标)的异常原因。 | |||
场景诊断 | 宕机诊断 | 分析宕机原因并给出修复建议,支持hardlock和hung task分析。 | ||
一键诊断 | 一键诊断 | 一键快速扫描操作系统场景问题,并生成诊断报告。 |
进程热点分析
用于单个节点在某一时段的热点分析,生成热点时序图、火焰图及调用图谱。支持Java进程热点追踪(采集Java栈信息)及热点历史记录查询。
项目 | 说明 |
支持架构 | x86 |
支持操作系统 | Alibaba Cloud Linux 2/3/3 Pro、CentOS 7/8、Rocky Linux 8.8及以上、Ubuntu 22.04/24.04、Anolis OS 7/8 |
热点对比分析
支持不同时刻或不同实例之间的热点对比分析,帮助定位性能变化原因。
项目 | 说明 |
支持架构 | x86 |
支持操作系统 | Alibaba Cloud Linux 2/3/3 Pro、CentOS 7/8、Rocky Linux 8.8及以上、Ubuntu 22.04/24.04、Anolis OS 7/8 |
GPU性能与诊断(邀测中)
GPU性能与诊断模块面向AI业务场景,提供GPU级别的性能观测、诊断与优化能力。该模块为高阶版功能。
GPU诊断
对AI业务场景中的系统异常进行诊断,生成诊断结论、GPU运行状态及AI作业运行状态。
项目 | 说明 |
故障诊断 | 推理服务或训练异常(任务hang、推理延迟)、GPU硬件异常(掉卡、XID错误)、NCCL异常(网络hang、算子hang)、大模型训练慢节点定位。 |
慢节点诊断 | 提供面向大模型训练场景的慢节点诊断,诊断报告包含基础信息、分析结论和原始数据(通过perfetto可视化呈现)。 |
支持架构:x86
支持操作系统:Alibaba Cloud Linux 2/3、Ubuntu 22.04/24.04
其他要求:仅适用于GPU实例,需特定NCCL版本(v2.21.5.1至v2.28.9.1)。
AI Profiling
一种用于实现AI应用程序全生命周期性能观测、诊断与优化的高级分析工具。通过追踪AI模型在训练及推理阶段的跨层软件栈调用轨迹,提供端到端的性能分析。采用零侵入设计,无需修改容器。
项目 | 说明 |
追踪范围 | Python栈、Torch层、显存、CudaRuntime、GPU核函数。 |
采集模式 | Duration模式(按时间采集,1000-5000毫秒)和Iteration模式(按迭代采集,支持跳过前n迭代)。 |
分析结果 | 分析建议与CPU/GPU摘要、GPU Kernel分析(含Tensor Cores使用)、迭代统计与差分分析、CPU/GPU Tracing可视化(内置TimeLine视图)。支持导出诊断结果报告用于离线查看。 |
支持架构 | x86 |
支持操作系统 | Alibaba Cloud Linux 2/3、Ubuntu 22.04/24.04 |
其他要求 | Python 3.9~3.12,torch库2.4~2.7,CUDA 12.0~12.8(不含12.7),仅支持GPU实例(A卡、L卡、T卡),目标进程需占用GPU且内存资源≥0.5G每秒/每迭代。 |
GPU持续剖析
帮助分析AI应用在CPU与GPU上的性能热点。通过可视化函数调用栈及时间消耗分布定位性能瓶颈,优化AI任务执行效率。
项目 | 说明 |
分析视图 | CPU/GPU热力图(每列1秒,每列50个小方格,单个方格表示20ms)、CPU火焰图(进程函数调用关系热点图)、GPU火焰图(展示Python进程相关的GPU调用栈信息)。 |
前提要求 | 需安装/升级SysOM组件至3.9.0+。开启后SysOM Agent内存限制由默认300MB变更为2GB。 |
支持架构 | x86 |
支持操作系统 | Alibaba Cloud Linux 2/3、Ubuntu 22.04/24.04 |
资源管理
资源管理
资源管理页面负责实例和集群的纳管。页面提供三个标签页:
标签页 | 说明 |
已纳管 | 展示已纳管的实例列表,包括资源纳管到期时间、实例ID/名称、健康度评分、镜像类型、SysOM组件版本、SysOM组件配置等信息。支持灰度执行操作。 |
未纳管 | 展示尚未纳管的实例,可进行纳管操作。 |
集群 | 展示已纳管的集群信息,支持ACK集群纳管,并支持集群内实例的弹性伸缩。 |
组件管理
负责SysOM等操作系统扩展组件的全生命周期管理,包括组件的安装、升级和卸载。
功能 | 说明 |
组件安装/升级/卸载 | 管理SysOM等扩展组件。支持Rocky Linux 8.8及以上系统。 |
灰度部署 | 支持ACK集群以节点数量、百分比及ACK节点标签灰度部署组件。 |
配置管理 | 支持功能的开启及配置,包括FastOOM功能(监控节点级别内存压力,触发节点级别FastOOM杀进程功能,支持显示正则匹配信息)及僵尸Memcg回收功能。 |
异常事件告警
异常事件告警模块提供异常事件的查看、筛选和告警策略管理能力。
异常事件列表
展示系统中检测到的异常事件,支持按时间范围(近24小时、近三天、近一周、近一个月、自定义)和多种条件进行筛选。
列表展示以下信息:异常类型、描述、异常等级(危险/警告/关注)、检测时间、关联的集群名称/实例ID等。
支持的异常事件类型包括:CPU使用率异常、tcp_mem异常、socket泄露、I/O读写延时异常、GPU异常、宕机事件等。告警信息支持GPU异常信息推送及K8s标签信息展示。
策略管理
用于创建和管理异常事件的告警策略。
功能 | 说明 |
新建策略 | 创建新的告警策略,配置告警条件和通知方式。支持通过邮件、短信、即时通讯工具等多渠道推送通知。 |
策略列表 | 管理已创建的策略,展示策略名称、事件个数、集群名称、策略是否生效等信息。 |
订阅管理
订阅管理提供对已停止维护的操作系统的安全更新订阅服务。
订阅服务 | 说明 |
CentOS 7安全更新订阅 | CentOS 7已于2024年6月30日停止维护,通过订阅服务获取安全更新。 |
Alibaba Cloud Linux 2延保 | Alibaba Cloud Linux 2已于2024年3月31日停止维护,通过延保服务继续获取支持。 |
Anolis 7安全更新订阅 | Anolis 7已于2024年6月30日停止维护,通过订阅服务获取安全更新。 |
说明:支持通过控制台取消已订阅的CentOS安全更新及Alibaba Cloud Linux 2 ELS订阅。
OS Copilot
OS Copilot是阿里云自研的Linux操作系统智能助手,位于控制台右上角的对话框中,具备自然语言问答、辅助命令执行、脚本/代码生成及系统运维调优等功能。
核心能力:
能力 | 说明 |
专业OS知识问答 | 提供操作系统相关的专业知识问答,支持回答中的文档链接引用。 |
命令辅助执行 | 根据自然语言描述,辅助生成和执行Linux命令。 |
脚本/代码生成 | 根据需求自动生成运维脚本或代码。 |
场景化工具集成 | 集成系统诊断等场景化工具,提供一站式运维体验。 |
智能诊断Agent | 新增CPU高负载诊断,自动识别并分析CPU使用率突增问题,快速定位热点线程或方法。支持OOM等异常的诊断引导,遇到相关问题时引导用户收集信息并自动调用内存全景大图。 |
诊断MCP服务 | 支持诊断MCP服务,第三方智能体可通过MCP接入控制台诊断能力。 |
使用方式:
Linux命令行:通过命令行形态直接在服务器上使用。
控制台对话框:通过控制台右上角的对话框直接发起对话。、