STAROps 是阿里云基于大模型和智能体技术打造的全域智能运维平台。旨在为企业提供智能的运行时可观测、数据洞察、智能诊断、智能自愈等智能观测和运维能力,实时守护企业应用和服务。
使用入口
快速开始:
权限配置:通过配置 RAM 用户和 RAM 角色的权限,使用不同的功能。
更多请参考什么是 STAROps。
核心优势
优势 | 说明 |
统一数据平台 | 阿里可观测统一数据基座,日志、拓扑、指标、链路统一存储,支持 PB 级日写入、EB级存储、千亿数据秒级分析,多可用区部署,可靠性99.99%。 |
运维数字孪生 | 基于 UModel 构建系统运行态数字孪生,统一建模应用、服务、资源、拓扑、告警、变更关系,并支持自定义扩展,支撑实时拓扑推理与因果分析。 |
数据分析算子 | 多种通用数据分析、可观测 AI 分析算子,覆盖指标异常检测、日志聚类、链路分析、性能剖析、变更回溯,提升 RCA 时效并降低模型推理成本。 |
灵活的集成方案 | 提供 OpenAPI、页面集成、IM 集成(钉钉、飞书)等多种集成方案,灵活融入已有工作流。 |
安全合规保障
精细化授权策略:通过操作者与数字员工 RAM 角色分层授权,将权限管理细化为“人能做什么”与“Agent 能访问什么”,实现最小化授权,大幅降低越权风险。
人工介入干预:过 MCP 接入客户工具并配置人在回路(HIL),将高危写操作与危险命令转化为需人工确认的安全流程,兜底由拦截引擎阻断异常执行,有效防止误操作与恶意行为。
Agent 行为审计:完整留存对话历史、运行产物、工具调用、CLI 指令及数据访问记录,将 Agent 全生命周期行为转化为可追溯、可复盘的审计证据,满足合规与安全回溯要求。
端到端数据加密:全链路采用 HTTPS/TLS 加密传输,观测数据支持 KMS 加密存储,Agent 运行产物亦加密保护,将敏感信息流转全过程转化为可信安全通道,全面保障数据隐私与完整性。
典型应用场景
K8s 集群定时智能巡检:每天自动巡检集群健康状态,生成结构化报告并对比历史差异。
核心服务高可用保障:持续监控核心服务,告警事件触发时自动进行根因分析(RCA)。
自然语言驱动的故障诊断:通过多轮对话逐步缩小排查范围,结合 UModel 拓扑进行关联分析。
定期数据质量检查:定期检查数据管道健康状态,发现异常自动通知。
自动化运维报表生成:按周/月自动汇总运维数据并生成结构化报表。