STAROps 预览版发布
我们很高兴地告诉大家,STAROps 预览版发布了。
STAROps 是阿里云打造的 AI 原生全域智能运维平台。基于大模型和跨域可观测数据,深度重构了系统运维全链路流程,推进运维模式从被动响应向智能自治的转型,持续提升企业业务系统韧性,7×24 小时保障业务连续、稳定运行。
核心功能
智能会话
支持通过自然语言快速完成告警分析、数据查询、指标解读、日志查询与分析等,将繁琐的命令行操作转化为所问即所得的即时洞察,大幅降低运维门槛。支持从 STAROps、云监控和日志服务等多个入口使用智能助手发起会话。
长期任务
长期任务(Mission)是面向长周期异步执行的人机交互模式。一次目标对齐,STAROps 即可规划出基于定时、事件等机制跨天级、月级的异步运维计划并自主执行,将重复性人工干预转化为可靠自动流程,大幅提升运维效率。支持定时调度和手动触发的方式,内置 Human-in-the-Loop(HIL)机制确保高风险操作的安全性。
数字员工
数字员工(SRE Agent)是 STAROps 的智能执行主体。支持客户构建企业专属 SRE 智能体,可自定义配置职责、权限、工具、技能等,构建贴合业务场景的运维助手,显著降低定制成本、提升企业智能运维落地效率。数字员工既是智能会话的对话对象,也是长期任务的执行者。
产品能力
自然语言运维查询:用户可以通过自然语言向系统提问,快速查询和分析指标、日志、链路、事件、告警、拓扑等多维度运行数据。STAROps 可将复杂的可观测数据转化为清晰结论,降低查询门槛,提升日常排查效率。
智能诊断与根因分析:当告警或异常发生时,STAROps 可自动收集相关证据,结合指标波动、日志异常、调用链路、服务依赖与历史处置经验,辅助完成故障定位与根因分析,帮助团队缩短问题发现和定位时间。
恢复建议与人机协同处置:针对已识别的问题,STAROps 可基于运行上下文、历史处置经验和系统状态生成恢复建议,并提供风险提示。对于高风险操作,STAROps 将遵循人机协同原则,由用户确认后再推进后续动作。
拓扑、图表与任务化会话体验:STAROps 支持在会话中展示拓扑、图表、待办事项等结构化信息,让排查过程更直观、可追踪。用户不仅可以获得答案,也可以看到分析过程、关键证据和下一步建议。
Skill / MCP 扩展能力:STAROps 支持通过 Skill、MCP 等方式扩展企业自有工具、经验和运维流程,帮助不同团队将自身经验沉淀为可复用能力,逐步构建企业专属的运维智能体。
长期任务(Mission)与持续巡检:面向巡检、健康度观察、SLO 保障等异步场景,STAROps 支持长期任务能力,让数字员工围绕目标持续工作,帮助团队提前发现风险并形成闭环。
适用场景
STAROps 预览版适用于以下典型场景:
值班工程师快速查询系统状态、告警原因和影响范围
SRE 团队进行故障诊断、根因分析和恢复建议生成
研发团队分析发布、变更、性能波动对线上系统的影响
运维团队沉淀 Runbook、经验规则和自动化工具能力
企业构建面向自身业务系统的 7×24 智能运维助手
计费安排
STAROps 将采用 积分(Credits)作为统一计费项,支持按量付费和资源包等购买方式。将于 2026 年 5 月 20 日起正式开始计费,届时也将为每位客户提供多种积分福利。
在计费开始前,建议您提前关注产品开通状态、用量情况、预算配置和资源包选择,以便更平滑地完成预览版体验与后续使用。具体计费规则、价格和资源包信息,后续将在 STAROps 控制台及官方文档详细说明。
预览版说明
STAROps 仍处于预览版阶段,产品能力、体验和场景覆盖将持续迭代。我们也欢迎用户在使用过程中反馈真实运维场景、诊断效果、工具接入需求和产品体验建议。
未来,STAROps 将继续围绕数据洞察、智能诊断、协同恢复、持续巡检和智能自愈等方向演进,帮助企业构建更高效、更可靠、更智能的生产系统运维能力。
STAROps 正在推动智能运维从辅助工具走向面向生产系统的 Agentic Ops 工作方式。