什么是 STAROps

更新时间:
复制为 MD 格式

STAROps 是阿里云基于大模型和智能体技术打造的全域智能运维平台。它深度融合跨域可观测数据与大语言模型推理能力,突破传统运维工具使用门槛高、数据孤岛严重等局限,支持用户通过自然语言定义目标,由运维智能体自主完成动态规划、安全执行与结果验证的全闭环。STAROps 实现运维模式从被动响应向主动自治的根本性转型,为企业提供 7x24 小时的自主运维能力,实时守护客户的业务系统韧性。

核心能力

STAROps 提供三大核心能力:

智能会话

自然语言快速完成告警分析、数据查询、指标解读、日志查询和分析等,将繁琐的命令行操作转化为所问即所得的即时洞察,大幅降低运维门槛。支持从 STAROps、云监控、和日志服务等多个入口使用智能助手发起会话。

长期任务

长期任务(Mission)是面向长周期异步执行的人机交互模式。一次目标对齐,即可规划出基于定时、事件等机制跨天/月级的异步运维计划并自主执行,将重复性人工干预转化为可靠自动流程,大幅提升运维效率。支持定时和手动触发的调度方式,内置人工干预(HIL)机制确保高风险操作的安全性。

数字员工

数字员工(SRE Agent)是 STAROps 的智能执行主体。支持客户构建企业专属 SRE 智能体,可自定义配置职责、权限、工具、技能等,构建贴合业务场景的运维助手,显著降低定制成本、加速企业研发运维生产力提升。数字员工既是智能会话的对话对象,也是长期任务的执行者。

核心优势

优势

说明

统一数据平台

阿里可观测统一数据基座,日志、拓扑、指标、链路统一存储,支持 PB 级日写入、EB级存储、千亿数据秒级分析,多可用区部署,可靠性99.99%。

运维数字孪生

基于 UModel 构建系统运行态数字孪生,统一建模应用、服务、资源、拓扑、告警、变更关系,并支持自定义扩展,支撑实时拓扑推理与因果分析。

数据分析算子

多种通用数据分析、可观测 AI 分析算子,覆盖指标异常检测、日志聚类、链路分析、性能剖析、变更回溯,提升 RCA 时效并降低模型推理成本。

灵活的集成方案

提供 OpenAPI、页面集成、IM 集成(钉钉、飞书)等多种集成方案,灵活融入已有工作流。

安全合规保障

  • 精细化授权策略:通过操作者与数字员工 RAM 角色分层授权,将权限管理细化为“人能做什么”与“Agent 能访问什么”,实现最小化授权,大幅降低越权风险。

  • 人工介入干预:过 MCP 接入客户工具并配置人在回路(HIL),将高危写操作与危险命令转化为需人工确认的安全流程,兜底由拦截引擎阻断异常执行,有效防止误操作与恶意行为。

  • Agent 行为审计:完整留存对话历史、运行产物、工具调用、CLI 指令及数据访问记录,将 Agent 全生命周期行为转化为可追溯、可复盘的审计证据,满足合规与安全回溯要求。

  • 端到端数据加密:全链路采用 HTTPS/TLS 加密传输,观测数据支持 KMS 加密存储,Agent 运行产物亦加密保护,将敏感信息流转全过程转化为可信安全通道,全面保障数据隐私与完整性。

典型应用场景

  • K8s 集群定时智能巡检:每天自动巡检集群健康状态,生成结构化报告并对比历史差异。

  • 核心服务高可用保障:持续监控核心服务,告警事件触发时自动进行根因分析(RCA)。

  • 自然语言驱动的故障诊断:通过多轮对话逐步缩小排查范围,结合 UModel 拓扑进行关联分析。

  • 定期数据质量检查:定期检查数据管道健康状态,发现异常自动通知。

  • 自动化运维报表生成:按周/月自动汇总运维数据并生成结构化报表。