什么是 STAROps

更新时间:
复制 MD 格式

STAROps 是阿里云基于大模型和智能体技术打造的全域智能运维平台。它深度融合跨域可观测数据与大语言模型推理能力,突破传统运维工具使用门槛高、数据孤岛严重等局限,支持用户通过自然语言定义目标,由运维智能体自主完成动态规划、安全执行与结果验证的全闭环。STAROps 实现运维模式从被动响应向主动自治的根本性转型,为企业提供 7x24 小时的自主运维能力,实时守护客户的业务系统韧性。

STAR 含义解析

STAROps 中的 STAR 代表四个核心设计理念:

  • S — Sense(全域感知):基于 UModel(可观测模型)统一采集日志、指标、链路、拓扑等跨域数据,打破数据孤岛,构建系统运行态的实时数字孪生,为 AI 决策提供完整上下文。

  • T — Target(目标导向):从告警响应转向目标达成。通过自然语言定义运维目标,持续评估目标偏差并定位影响因素,驱动决策与执行。

  • A — Autonomy(自主运维):多智能体协同完成“感知→决策→执行→验证”闭环,无需人工逐步介入,实现 7×24 自主运维。高风险操作保留人工审批(HIL),兼顾效率与安全。

  • R — Resilience(业务韧性):从事后救火转向主动防护。持续巡检提前发现风险,故障发生时自动执行扩缩容、回滚、切流并验证恢复效果,缩短 MTTR(平均故障恢复时间)。运维经验沉淀为知识图谱,持续提升系统韧性。

核心能力

STAROps 提供三大核心能力:

智能会话

自然语言快速完成告警分析、数据查询、指标解读、日志查询和分析等,将繁琐的命令行操作转化为所问即所得的即时洞察,大幅降低运维门槛。支持从 STAROps、云监控、和日志服务等多个入口使用智能助手发起会话。

长期任务

长期任务(Mission)是面向长周期异步执行的人机交互模式。一次目标对齐,即可规划出基于定时、事件等机制跨天/月级的异步运维计划并自主执行,将重复性人工干预转化为可靠自动流程,大幅提升运维效率。支持定时和手动触发的调度方式,内置人工干预(HIL)机制确保高风险操作的安全性。

数字员工

数字员工(SRE Agent)是 STAROps 的智能执行主体。支持客户构建企业专属 SRE 智能体,可自定义配置职责、权限、工具、技能等,构建贴合业务场景的运维助手,显著降低定制成本、加速企业研发运维生产力提升。数字员工既是智能会话的对话对象,也是长期任务的执行者。

核心优势

优势

说明

统一数据平台

阿里可观测统一数据基座,日志、拓扑、指标、链路统一存储,支持 PB 级日写入、EB级存储、千亿数据秒级分析,多可用区部署,可靠性99.99%。

运维数字孪生

基于 UModel 构建系统运行态数字孪生,统一建模应用、服务、资源、拓扑、告警、变更关系,并支持自定义扩展,支撑实时拓扑推理与因果分析。

数据分析算子

多种通用数据分析、可观测 AI 分析算子,覆盖指标异常检测、日志聚类、链路分析、性能剖析、变更回溯,提升 RCA 时效并降低模型推理成本。

灵活的集成方案

提供 OpenAPI、页面集成、IM 集成(钉钉、飞书)等多种集成方案,灵活融入已有工作流。

安全合规保障

  • 精细化授权策略:通过操作者与数字员工 RAM 角色分层授权,将权限管理细化为“人能做什么”与“Agent 能访问什么”,实现最小化授权,大幅降低越权风险。

  • 人工介入干预:通过 MCP 接入客户工具并配置人在回路(HIL),将高危写操作与危险命令转化为需人工确认的安全流程,兜底由拦截引擎阻断异常执行,有效防止误操作与恶意行为。

  • Agent 行为审计:完整留存对话历史、运行产物、工具调用、CLI 指令及数据访问记录,将 Agent 全生命周期行为转化为可追溯、可复盘的审计证据,满足合规与安全回溯要求。

  • 端到端数据加密:全链路采用 HTTPS/TLS 加密传输,观测数据支持 KMS 加密存储,Agent 运行产物亦加密保护,将敏感信息流转全过程转化为可信安全通道,全面保障数据隐私与完整性。

典型应用场景

  • K8s 集群定时智能巡检:每天自动巡检集群健康状态,生成结构化报告并对比历史差异。

  • 核心服务高可用保障:持续监控核心服务,告警事件触发时自动进行根因分析(RCA)。

  • 自然语言驱动的故障诊断:通过多轮对话逐步缩小排查范围,结合 UModel 拓扑进行关联分析。

  • 定期数据质量检查:定期检查数据管道健康状态,发现异常自动通知。

  • 自动化运维报表生成:按周/月自动汇总运维数据并生成结构化报表。

常见问题

RAM 用户的会话记录、数字员工等资源是否与主账号隔离?

不隔离。STAROps 资源归属于阿里云账号,不按 RAM 用户与主账号做资源隔离。RAM 用户创建的会话记录、数字员工、长期任务(Mission)等资源,仍属于同一个阿里云账号下的资源。

如果需要限制不同 RAM 用户可查看或可操作的资源,请通过 RAM 权限策略进行隔离,例如控制 cms:ListThreadscms:GetThreadcms:ListDigitalEmployeescms:GetDigitalEmployeecms:ListMissionscms:GetMission 等 Action 的授权范围。

STAROps 需要单独开通吗?

不需要。在云监控 2.0(CMS 2.0)或日志服务(SLS)控制台中点击 STAROps 入口,即默认自动开通,无需额外操作。