使用操作系统控制台

更新时间:
复制为 MD 格式

操作系统控制台是阿里云官方的智能化操作系统管理与诊断平台,帮助运维和开发人员在可视化界面中完成过去需要登录服务器、组合多种命令行工具才能完成的操作系统级排查与管理工作。支持通过API、SDK、CLI、MCP等方式管理。

应用场景

  • 日常运维:

    • 通过系统健康快速定位服务器变慢瓶颈。

    • 通过系统诊断自动分析进程被OOM Kill、IO毛刺、网络抖动、内存不足等疑难问题。

    • 通过宕机诊断自动解读宕机后只有panic日志并给出修复建议。

  • AI/GPU场景:

    • AI Profiling实现零侵入采集全栈调用轨迹,分析训练慢瓶颈在通信还是算子

    • 分布式训练被个别节点拖慢,通过GPU诊断快速定位慢节点

    • 训练hang住,自动判断是硬件故障还是通信问题。

  • 降低门槛: AI Agent实现自然语言排查内核级问题,获取OS专家级专业诊断建议。

地域限制

本功能目前仅支持中国内地与中国香港。

前提条件

  • 如果您使用RAM用户,需要被授予 AliyunECSReadOnlyAccessAliyunSubManageFullAccessAliyunSysomFullAccess 策略。

  • 首次登录操作系统控制台时,需单击开通服务以开通控制台权限。

快速开始

  1. 登录操作系统控制台

  2. 资源管理 > 组件管理中为目标ECS实例安装SysOM组件。

  3. 资源管理中确认实例状态为已纳管

  4. 进入概览或其他功能模块使用相应功能。

说明:部分诊断功能支持非纳管实例直接使用,无需提前纳管。

功能概览

控制台左侧导航菜单包含以下功能模块:

一级菜单

二级菜单

说明

概览

全局资源视图与快速入口

系统健康与诊断

系统健康

集群与节点健康度监控

系统诊断

节点诊断、Pod诊断、历史诊断

进程热点分析

进程级性能热点追踪与火焰图

热点对比分析

不同时刻或不同实例的热点对比

GPU性能与诊断(邀测中)

GPU诊断

AI业务场景的GPU异常诊断

AI Profiling

AI应用全生命周期性能观测

GPU持续剖析

CPUGPU性能热点持续分析

资源管理

资源管理

实例纳管与集群管理

组件管理

SysOM等扩展组件的安装、升级、卸载

异常事件告警

异常事件列表

异常事件的查询与筛选

策略管理

告警策略的创建与管理

订阅管理

操作系统安全更新订阅服务

此外,控制台右上角提供OS Copilot智能助手对话框。

概览

概览页面提供全局资源视图,帮助快速掌握系统整体状态。

页面内容包括:

区域

说明

资源纳管情况

展示已纳管的集群数量和节点数量。

异常事件仪表盘

按维度展示当前异常事件数量,包括集群、节点、磁盘流量、内存、调度、网络六个维度。

事件告警

汇总展示最近的异常事件告警信息。

订阅服务

展示当前已订阅的服务(如Anolis 7安全更新订阅等)。

系统健康与诊断

系统健康

操作系统健康度通过关键监控指标,整体反映一个集群、节点或容器的健康状态。

主要功能:

功能

说明

集群健康分

支持选择纳管的集群,展示集群健康评分和集群健康指标,用于整体判断集群的健康程度。

节点总数与资源监控

展示节点总数分布,以及CPU(利用率、分配率)、内存(利用率、分配率)、磁盘(IO利用率、分配率)等关键资源指标。

历史健康趋势

支持按近24小时、近一周、近一个月查看健康度变化趋势。

异常事件分析

展示异常事件的分布与详细信息,支持多维度筛选。集成大模型能力,对异常告警提供上下文感知的根因分析与修复建议。

系统诊断

系统诊断提供多维度的操作系统诊断能力,帮助快速定位和分析系统问题。通过顶部下拉菜单切换三种诊断模式:

诊断模式:

模式

说明

节点诊断

对单个节点进行系统诊断,支持多种诊断项。

Pod诊断

支持对ACKACS集群管理的Pod进行诊断,适用于容器化场景。

历史诊断

支持对ACS/ECI实例的历史OOM等问题进行诊断回溯分析。

诊断项(节点诊断模式):

诊断类型

诊断项

说明

支持架构

支持操作系统

内存诊断

内存全景分析

提供系统内存全景视图,支持Glibc本地内存分配输出、Java Native Memory分析、tcp_memsocket泄露检测。Java内存诊断分析,支持大文件上传及堆内/堆外火焰图。

x86、ARM64

  • Alibaba Cloud Linux 2/3/3 Pro

  • CentOS 7/8

  • Rocky Linux 8.8及以上

  • Ubuntu 22.04/24.04

  • Anolis OS 7/8

OOM诊断

OOM(Out of Memory)事件进行诊断分析,增强OOM采集功能。

存储诊断

IO流量分析

分析系统IO流量的分布和使用情况。

IO一键诊断

专注于高频出现的IO高延迟、IO BurstIO Wait等问题的一键快速诊断。

网络诊断

丢包诊断

诊断网络丢包原因。

网络抖动

分析由收包慢、软中断及调度器引起的网络抖动问题。

调度诊断

调度抖动诊断

诊断系统调度抖动问题。

系统负载诊断

分析系统一分钟平均负载(load1指标)的异常原因。

场景诊断

宕机诊断

分析宕机原因并给出修复建议,支持hardlockhung task分析。

一键诊断

一键诊断

一键快速扫描操作系统场景问题,并生成诊断报告。

进程热点分析

用于单个节点在某一时段的热点分析,生成热点时序图、火焰图及调用图谱。支持Java进程热点追踪(采集Java栈信息)及热点历史记录查询。

项目

说明

支持架构

x86

支持操作系统

Alibaba Cloud Linux 2/3/3 Pro、CentOS 7/8、Rocky Linux 8.8及以上、Ubuntu 22.04/24.04、Anolis OS 7/8

热点对比分析

支持不同时刻或不同实例之间的热点对比分析,帮助定位性能变化原因。

项目

说明

支持架构

x86

支持操作系统

Alibaba Cloud Linux 2/3/3 Pro、CentOS 7/8、Rocky Linux 8.8及以上、Ubuntu 22.04/24.04、Anolis OS 7/8

GPU性能与诊断(邀测中)

GPU性能与诊断模块面向AI业务场景,提供GPU级别的性能观测、诊断与优化能力。该模块为高阶版功能。

GPU诊断

AI业务场景中的系统异常进行诊断,生成诊断结论、GPU运行状态及AI作业运行状态。

项目

说明

故障诊断

推理服务或训练异常(任务hang、推理延迟)、GPU硬件异常(掉卡、XID错误)、NCCL异常(网络hang、算子hang)、大模型训练慢节点定位。

慢节点诊断

提供面向大模型训练场景的慢节点诊断,诊断报告包含基础信息、分析结论和原始数据(通过perfetto可视化呈现)。

  • 支持架构:x86

  • 支持操作系统:Alibaba Cloud Linux 2/3、Ubuntu 22.04/24.04

  • 其他要求:仅适用于GPU实例,需特定NCCL版本(v2.21.5.1v2.28.9.1)。

AI Profiling

一种用于实现AI应用程序全生命周期性能观测、诊断与优化的高级分析工具。通过追踪AI模型在训练及推理阶段的跨层软件栈调用轨迹,提供端到端的性能分析。采用零侵入设计,无需修改容器。

项目

说明

追踪范围

Python栈、Torch层、显存、CudaRuntime、GPU核函数。

采集模式

Duration模式(按时间采集,1000-5000毫秒)和Iteration模式(按迭代采集,支持跳过前n迭代)。

分析结果

分析建议与CPU/GPU摘要、GPU Kernel分析(含Tensor Cores使用)、迭代统计与差分分析、CPU/GPU Tracing可视化(内置TimeLine视图)。支持导出诊断结果报告用于离线查看。

支持架构

x86

支持操作系统

Alibaba Cloud Linux 2/3、Ubuntu 22.04/24.04

其他要求

Python 3.9~3.12,torch2.4~2.7,CUDA 12.0~12.8(不含12.7),仅支持GPU实例(A卡、L卡、T卡),目标进程需占用GPU且内存资源≥0.5G每秒/每迭代。

GPU持续剖析

帮助分析AI应用在CPUGPU上的性能热点。通过可视化函数调用栈及时间消耗分布定位性能瓶颈,优化AI任务执行效率。

项目

说明

分析视图

CPU/GPU热力图(每列1秒,每列50个小方格,单个方格表示20ms)、CPU火焰图(进程函数调用关系热点图)、GPU火焰图(展示Python进程相关的GPU调用栈信息)。

前提要求

需安装/升级SysOM组件至3.9.0+。开启后SysOM Agent内存限制由默认300MB变更为2GB。

支持架构

x86

支持操作系统

Alibaba Cloud Linux 2/3、Ubuntu 22.04/24.04


资源管理

资源管理

资源管理页面负责实例和集群的纳管。页面提供三个标签页:

标签页

说明

已纳管

展示已纳管的实例列表,包括资源纳管到期时间、实例ID/名称、健康度评分、镜像类型、SysOM组件版本、SysOM组件配置等信息。支持灰度执行操作。

未纳管

展示尚未纳管的实例,可进行纳管操作。

集群

展示已纳管的集群信息,支持ACK集群纳管,并支持集群内实例的弹性伸缩。

组件管理

负责SysOM等操作系统扩展组件的全生命周期管理,包括组件的安装、升级和卸载。

功能

说明

组件安装/升级/卸载

管理SysOM等扩展组件。支持Rocky Linux 8.8及以上系统。

灰度部署

支持ACK集群以节点数量、百分比及ACK节点标签灰度部署组件。

配置管理

支持功能的开启及配置,包括FastOOM功能(监控节点级别内存压力,触发节点级别FastOOM杀进程功能,支持显示正则匹配信息)及僵尸Memcg回收功能。

异常事件告警

异常事件告警模块提供异常事件的查看、筛选和告警策略管理能力。

异常事件列表

展示系统中检测到的异常事件,支持按时间范围(近24小时、近三天、近一周、近一个月、自定义)和多种条件进行筛选。

列表展示以下信息:异常类型、描述、异常等级(危险/警告/关注)、检测时间、关联的集群名称/实例ID等。

支持的异常事件类型包括:CPU使用率异常、tcp_mem异常、socket泄露、I/O读写延时异常、GPU异常、宕机事件等。告警信息支持GPU异常信息推送及K8s标签信息展示。

策略管理

用于创建和管理异常事件的告警策略。

功能

说明

新建策略

创建新的告警策略,配置告警条件和通知方式。支持通过邮件、短信、即时通讯工具等多渠道推送通知。

策略列表

管理已创建的策略,展示策略名称、事件个数、集群名称、策略是否生效等信息。

订阅管理

订阅管理提供对已停止维护的操作系统的安全更新订阅服务。

订阅服务

说明

CentOS 7安全更新订阅

CentOS 7已于2024630日停止维护,通过订阅服务获取安全更新。

Alibaba Cloud Linux 2延保

Alibaba Cloud Linux 2已于2024331日停止维护,通过延保服务继续获取支持。

Anolis 7安全更新订阅

Anolis 7已于2024630日停止维护,通过订阅服务获取安全更新。

说明:支持通过控制台取消已订阅的CentOS安全更新及Alibaba Cloud Linux 2 ELS订阅。

OS Copilot

OS Copilot是阿里云自研的Linux操作系统智能助手,位于控制台右上角的对话框中,具备自然语言问答、辅助命令执行、脚本/代码生成及系统运维调优等功能。

核心能力:

能力

说明

专业OS知识问答

提供操作系统相关的专业知识问答,支持回答中的文档链接引用。

命令辅助执行

根据自然语言描述,辅助生成和执行Linux命令。

脚本/代码生成

根据需求自动生成运维脚本或代码。

场景化工具集成

集成系统诊断等场景化工具,提供一站式运维体验。

智能诊断Agent

新增CPU高负载诊断,自动识别并分析CPU使用率突增问题,快速定位热点线程或方法。支持OOM等异常的诊断引导,遇到相关问题时引导用户收集信息并自动调用内存全景大图。

诊断MCP服务

支持诊断MCP服务,第三方智能体可通过MCP接入控制台诊断能力。

使用方式:

  • Linux命令行:通过命令行形态直接在服务器上使用。

  • 控制台对话框:通过控制台右上角的对话框直接发起对话。、