什么是云监控2.0

阿里云云监控2.0是融合日志服务SLS、云监控CMS、应用实时监控服务ARMS产品后全新升级的一站式可观测平台,可将指标、链路、日志、事件汇集于统一视图。基于 UModel 建模与观测图谱,结合可视化和告警能力,实现资源自动关联与智能诊断,提供从基础设施到应用层的全链路、端到端的统一观测,快速发现并解决潜在问题,提高运维效率。广泛适用于微服务、容器、云产品等复杂场景。

云监控2.0借助AI增强的跨域智能洞察,能够实时分析和预测系统性能,提前识别异常情况,并提供智能化的故障诊断和优化建议,帮助企业在 AI-native 时代以更智能、更高效、更低成本的方式构建全栈可观测体系,为业务稳定性与安全性保驾护航。

功能体验

阿里云Playground提供了云监控2.0主要功能的演示环境,便于您快速了解及体验云监控2.0。

请访问 Playground Demo 演示环境,默认进入工作空间。

image.png

产品优势

一站式融合观测

云监控2.0深度整合了原云监控(CMS)、日志服务(SLS)和应用实时监控服务(ARMS)的核心能力,将指标、日志、链路、事件等多种数据源融于一体。您无需再部署和维护多套独立的监控工具,即可在一个统一的平台上实现从底层基础设施到上层应用的全方位、端到端观测,显著降低了监控体系的复杂度和管理成本。

数据统一建模

基于 UModel (Universal Observability Model)将指标(Metrics)、日志(Logs)、链路(Traces)、变更(Changes)等数据孤岛全面打通,构建起IT系统的全景数字视图。让人、程序和AI都能够理解和分析可观测数据,从而构建真正的全栈可观测能力,提升问题定位效率。

AI 驱动智能分析

以统一的可观测数据模型为基石,通过使用机器学习技术进行深度模式识别与关联分析,实现精准的异常检测、趋势预测和智能告警降噪。同时利用大语言模型的能力,将复杂的可观测数据转化为深度洞察,实现革命性的“对话式运维”——用自然语言与智能助手对话,快速定位、分析和处理问题。

开放兼容,拥抱主流生态

云监控2.0全面拥抱开源技术生态,原生支持Prometheus、Grafana、OpenTelemetry,Elasticsearch等业界主流标准和工具。这使得您现有的监控资产和技术栈可以平滑迁移和接入,无论是云原生应用还是混合云环境,都能实现无缝的统一监控,为您提供了一个灵活、开放、无厂商锁定的解决方案。

基本概念

在使用云监控前,您需要了解以下基本概念。

术语

说明

工作空间(WorkSpace)

工作空间(WorkSpace)是云监控2.0中用于表示一组资源集合的抽象层,为企业团队提供统一的管理和资源分组数据隔离能力,所选地域用于存储工作区接入的数据和配置信息。通过使用工作空间,可以创建多个独立的资源环境,每个资源环境都可以拥有自己的对象集(如云服务、基础设施、服务端和前端应用、中间件等),每个组内的资源是相互隔离的,这可防止不同组之间的资源冲突,提高资源使用的安全性。

  • WorkSpace的地域就是背后数据源的地域,严格本地域封闭,同时也是EntityStore的存储区域。

  • WorkSpaceName:全局唯一,类似于ProjectName。用户可以在创建时填写,如果不填写,则由系统自动生成。WorkSpace 创建后不支持修改,不可以重名(在API调用过程中作为唯一标识)。

  • WorkSpaceDisplayName:由用户填写,可以修改,可以重名。

  • default WorkSpace:默认工作区,名称格式为 default-cms-{uid}-{regionId}。default WorkSpace 绑定的 SLS Project 名称与 default WorkSpace id 类似(如default-cms-{uid}-{regionId}),但SLS Project 名称可能在上述格式基础上添加了随机字符串,并不完全严格遵循此格式。

  • 用户在region创建的第一个WorkSpace一定是default WorkSpace。

应用(App)

可观测App是对WorkSpace下的数据源进行读写操作的载体,在WorkSpace中可以打开或隐藏,App通常是对于某一特定场景的可观测领域知识的呈现。具有以下特点:

  • APP是轻量级的,可以选择开启和关闭(是否在控制台左侧导航栏显示),关闭后也可随时开启。不同的用户(子账号级别)可以选择开启不同的APP。

  • APP是无状态的,每个WorkSpace中的应用中心都是包含全量APP,如果用户对APP关联数据源没有权限,则APP打开后无数据。

  • APP可以关联并访问多个数据源,通过切换数据源,透出和IaaS层的关系。

  • 接入中心的接入流程定义了APP的初始化和数据源的创建。

  • APP中可以引用另一个APP,如explorer、告警等被嵌入到其他各种app中,也可以作为独立APP存在。

实体(Entity)

实体Entity是指可观测的实体对象,例如一个容器集群或者一台ECS服务器,对应一个实体Entity。

模型(Umodel)

UModel是一个可观测数据模型定义规范,用于定义各类可观测对象的模型,包括日志、指标、Trace、实体等,以及这些可观测对象之间的关联关系,以实现可观测数据的统一定义和管理。

功能特性

功能特性

描述

全栈数据采集与监控

  • 基础设施监控

    • 云资源监控:支持ECS、RDS、SLB、容器服务(ACK/ASK)、Kubernetes Pod等云产品的性能指标(CPU、内存、磁盘、网络流量等)实时采集。

    • 网络性能监测:提供网络延迟、丢包率、DNS解析、TCP/UDP连接状态等网络层监控能力。

  • 应用性能监控(APM)

    • 分布式链路追踪:追踪微服务调用链,支持Java、Python、Go等主流语言,展示接口耗时、错误率、依赖拓扑等。

    • 代码级诊断:通过线程分析、慢SQL检测、堆栈跟踪定位应用性能瓶颈。

  • 日志监控

    • 日志采集与存储:支持从服务器、容器、函数计算(FC)等场景采集日志,兼容Log4j、Logback等日志框架。

    • 日志实时分析:提供SQL语法查询、关键词告警、日志聚类分析(如错误日志聚合统计)。

智能分析与诊断

  • 异常检测与告警

    • 动态阈值告警:基于机器学习算法自动学习指标历史规律,识别异常波动(如CPU使用率突增)。

    • 多条件组合告警:支持跨指标关联告警(如“CPU>90%且网络丢包率>5%”触发告警)。

  • 根因分析(RCA)

    • 智能关联分析:自动关联异常指标、日志错误与调用链数据,生成故障根因报告(如某API接口超时引发下游服务雪崩)。

    • 时序数据回溯:提供历史数据对比功能,快速定位异常时间点与影响范围。

可视化与报表

  • 自定义监控看板

    • 拖拽式仪表盘:支持折线图、柱状图、拓扑图等可视化组件,灵活组合展示跨资源、跨服务的关键指标。

    • 场景化模板库:预置电商大促、容器集群、数据库性能等监控模板,一键生成业务全景视图。

  • 业务大屏

    • 实时数据投屏:支持全屏展示核心业务指标(如订单量、支付成功率),适配运维作战室场景。

    • 多租户视图隔离:按团队或业务线分配数据查看权限,保障数据安全。

告警与通知管理

  • 多渠道告警触达

    • 通知通道:支持钉钉、企业微信、短信、邮件、Webhook等告警推送,支持分时段静默(如非工作时间仅通知值班人员)。

    • 告警升级策略:设置分级告警(如“提醒→严重→致命”),未及时响应时自动升级通知对象。

  • 告警闭环管理

    • 告警历史与统计:记录告警处理状态(已确认、已恢复),生成MTTR(平均修复时间)分析报表。

    • 与运维工具集成:告警自动触发工单系统(如钉钉宜搭)、运维自动化脚本(如重启服务)。

开放与集成能力

  • 生态无缝对接

    • 阿里云服务集成:与日志服务(SLS)、应用实时监控服务(ARMS)、云效DevOps等深度联动,实现数据自动关联(如日志查询直接跳转至异常链路)。

    • 第三方工具兼容:支持Prometheus、OpenTelemetry、Telegraf等开源协议,兼容Grafana可视化、Jenkins持续集成。

  • APISDK支持

    • OpenAPI管理:通过API实现监控配置自动化(如批量创建告警规则、导出监控数据)。

    • 自定义指标上报:支持用户通过SDK上报业务指标(如订单量、活动PV/UV),扩展监控范围。

安全与高可用

  • 数据安全保障

    • 端到端加密:监控数据在传输(HTTPS)与存储(加密存储)过程中全程加密。

    • 权限管控:基于RAM角色实现精细化权限管理(如“只读访问”“告警配置权限”)。

    • 安全合规保障,符合各类国际国内安全标准,确保监控过程中的数据传输和存储安全可靠。

  • 服务可靠性

    • 全球分布式采集点:监测节点覆盖全球主要区域,避免网络抖动导致数据丢失。

    • 数据冗余存储:监控数据多副本存储,保障数据可恢复性。

成本优化功能

  • 资源使用分析

    • 闲置资源识别:自动标记长期低负载的ECS实例、未绑定的EIP等资源,生成释放建议。

    • 费用分摊报表:按项目、部门或标签统计云资源消耗,支持成本分摊与预算管控。

  • 自适应数据采样

    • 按需调整采集频率:对非关键指标降低采集频率(如从1分钟调整为5分钟),减少数据存储成本。

跨地域统一管理

支持对分布在多个地域的资源实施集中监控和管理,简化运维工作流程。

应用场景

场景

场景描述

方案优势

场景一:全栈统一监控与实时观测图谱

企业需同时监控混合云环境中的物理服务器、容器集群、微服务应用及数据库等资源,但传统工具分散导致运维效率低。云监控2.0通过统一采集指标(如CPU、内存)、链路(如API调用链)、日志(如错误日志)及事件(如配置变更),构建端到端观测图谱,实现跨资源、跨服务的全局状态可视化。

  • 多源数据融合:支持50+数据源接入,涵盖基础设施、中间件、应用层,消除数据孤岛。

  • 可视化仪表盘:自定义视图展示资源拓扑、服务依赖关系及关键性能指标(KPI)。

  • 跨域关联分析:自动关联异常指标与相关日志、链路信息,快速定位根因。

场景二:智能异常检测与故障预测

在流量突增或复杂架构下,人工识别潜在故障难度高。云监控2.0基于机器学习模型分析历史数据,实时预测系统容量瓶颈、服务响应延迟等风险,并提前触发预警。

  • 根因定位:通过指标、链路、剖析等数据实时检测、实时计算,可覆盖耗时、错误率、异常、OOM 等多种场景。

  • 影响面分析:支持业务影响面:终端用户、前端应用、页面请求、应用影响面:应用、接口、数据库、容器 / ECS。

  • Copilot自助探索:通过生成式 AI 自助获取检测报告、解决方案等。

  • 告警收敛:跨产品跨实例进行告警收敛,防止多次告警,同一根因的告警事件统一收敛。

场景三:从客户端到服务端,端到端全链路追踪(APM)

微服务架构下,单次用户请求可能涉及数十个服务调用和前后端调用,性能瓶颈难以追踪。云监控2.0结合全链路追踪与代码级诊断,向上链接用户体验、向下链接基础设施,构建全栈观测图谱,精准分析慢查询、死锁等问题。

  • 全栈观测图谱:覆盖各类观测对象,如服务、接口、云产品实例等,涵盖丰富的观测数据,如指标、事件、元数据等,并提供跨域的实体关联关系。

  • 关联数据查询与分析:向上:动态、实时获取上游访问终端,关联分析业务影响面。向下:动态、实时获取下游依赖服务(中间件、数据库等)、容器等全量监控信息。

  • 动态架构感知:提供全景、全域拓扑,动态生成完整 CMDB,且具备自动发现能力。

场景四:安全合规与威胁洞察

企业需实时监控登录异常、数据泄露等安全事件,并满足等保合规审计要求。云监控2.0通过日志实时分析、行为模式识别,快速发现潜在威胁。

  • 实时威胁检测:基于规则引擎与AI模型识别异常登录、SQL注入等攻击行为。

  • 合规审计报告:自动生成资源操作日志报表,支持等保、GDPR等合规要求。

  • 自动化响应:联动安全组或WAF,自动阻断高危IP访问。

场景五:资源优化与成本管理

云资源使用不透明易导致资源浪费。云监控2.0分析资源利用率,推荐弹性伸缩策略与闲置资源释放方案。

  • 利用率分析:识别低负载ECS实例、未挂载磁盘等资源,生成优化清单。

  • 成本预测:基于历史消费趋势,预估月度账单并提供降本建议。

  • 自动化弹性:根据流量自动扩缩容Kubernetes集群或Serverless服务。

场景六:智能告警与自动化运维

传统告警易出现误报或信息过载。云监控2.0通过告警降噪、动态阈值及分级通知机制,提升告警精准度,并支持自动化修复动作。

  • 告警聚合:合并同类事件,避免重复通知。

  • 多通道触达:按严重程度分级推送至钉钉、邮件或短信。

  • 自动化剧本:触发预置脚本完成服务重启、故障节点隔离等操作。

场景七:开源可观测组件托管与智能化运维

企业在混合云或多云环境中广泛使用开源可观测工具(如Prometheus、Grafana、OpenTelemetry),但面临以下挑战:

  1. 运维复杂度高:自建Prometheus集群需管理数据采集、存储、告警等全链路,部署和扩容成本高。

  2. 数据孤岛问题:OpenTelemetry链路数据与Prometheus指标、Grafana大盘分散存储,缺乏统一分析能力。

  3. 智能化能力缺失:开源工具依赖人工配置告警规则和根因分析,难以应对AI-native架构的动态性。

  • 降本增效:托管服务免除90%的运维工作量,资源利用率提升30%。

  • 全栈观测:覆盖从基础设施(Prometheus指标)、应用性能(OpenTelemetry链路)到用户体验(Grafana可视化)的全链路观测。

  • 开放兼容:支持与开源生态无缝集成(如Prometheus Operator、Grafana插件),满足企业混合云技术栈需求。

可观测应用列表

应用类型

应用名称

描述(中文)

常驻

告警中心

集中管理所有告警信息

常驻

应用中心

集中管理所有应用及其相关服务

常驻

接入中心

提供各种观测对象和数据的接入与管理

常驻

实体探索

探索不同观测对象的状态和性能

常驻

云产品监控

提供阿里云服务的基础监控指标查询与告警服务

应用可观测

应用监控

对应用程序性能进行实时监控与故障诊断

应用可观测

用户体验监控

专注于Web、移动端App和小程序场景的监控

应用可观测

AI应用可观测

提供AI应用的全栈一体化可观测能力

运维监控

Prometheus服务

Prometheus全托管云服务,实现高性能监控系统

运维监控

问题响应

将告警事件聚合成问题并进行管理

运维监控

云拨测

模拟用户请求,主动监控网络质量、服务可用性及用户体验

运维监控

数据库可观测

为数据库服务提供一站式可观测能力

运维监控

日志审计

记录并审查操作日志

云产品洞察

PAI洞察

为人工智能平台PAI提供一站式全栈可观测能力

云产品洞察

容器洞察

深入分析 Kubernetes 集群的运行状态

云产品洞察

ECS 洞察

弹性计算服务的高级监控功能

智能探索与分析

UModel Explorer

Entity & Umodel 调试工具

智能探索与分析

Data Explorer

探索和分析各种监控指标、数据

智能探索与分析

事件中心

统一管理各类事件信息

智能探索与分析

仪表盘

展示关键指标的综合仪表板

智能探索与分析

日志探索

提供日志数据探索/分析服务