智能运维助手是云监控2.0面向可观测性场景的智能助手,以大语言模型为核心驱动力,基于用户可观测数据 UModel,支撑用户通过自然语言交互的轻量化方式探索数据,并能够助力用户高效定位、分析问题。
智能运维助手能力概述
覆盖可观测性领域核心场景,支持以自然语言直接询问各类可观测相关问题,智能运维助手能力覆盖云监控2.0平台内的全量数据。
用户不需要掌握 SPL语法规则或调试查询格式,仅需通过自然语言描述数据查询需求(例如 “查询过去 24 小时云服务器 ECS 实例的 CPU 使用率超过 80% 的日志”“统计近 1 小时某应用 的 5xx 错误请求数”),智能运维助手可基于对需求的理解,自动生成精准的 SPL 查询语句,直接用于可观测性平台的数据检索,大幅缩短从 “需求” 到 “数据结果” 的链路耗时。
无需手动在可观测性平台的多个工具模块(如日志应用、应用监控、告警中心、Cloudlens等)间切换,智能运维助手可根据用户的问题场景与需求意图,自动识别并调用对应的可观测工具,例如用户询问 “某条告警的触发原因” 时,助手会自动关联告警对应实体的上下游关系,并调用根因分析工具拉取关联的指标波动、日志异常数据;用户需要 “查看应用延时趋势” 时,会直接调用应用监控工具并查询目标应用的延时指标面板,简化操作流程,减少人工干预成本。
操作方法
在云监控2.0平台的任意页面右上角,可找到按钮
。单击该按钮后,平台右侧会弹出智能运维助手的对话侧边栏,即可开始与助手交互。
在右侧弹出的对话侧边栏中,底部设有智能运维助手输入框。可以直接在输入框内输入自然语言问题,例如:
查询应用
fraud-detection
过去 1 小时的错误日志。ECS 实例
i-xxx
的 CPU 使用率趋势是怎样的?
输入完成后,按下回车键或单击输入框右侧的发送按钮,智能运维助手会基于平台可观测数据生成回答,并在侧边栏展示结果。
对话框侧边栏顶部提供历史会话功能,单击可查看过往与智能运维助手的所有交互记录。若需清空当前会话上下文,可单击清空会话按钮,重置对话状态。
实体关联上下文
在云监控2.0平台中,可以将任一实体(如 “应用列表”“K8s 集群”“ECS 列表”“RDS 列表” 等标签页的实体)作为上下文发送给智能运维助手,让后续问题更聚焦于该实体的可观测数据。
智能运维助手问答
智能运维助手支持使用自然语言查询日志、应用监控、基础设施数据、RUM等可观测领域问题,可以向智能运维助手询问您服务的运行状况,是否有异常,并检索与这些服务相关的其他上下游资源。
另外您还可以向智能运维助手询问云监控2.0的一些操作问题,比如“我要如何创建一个告警规则,并配置通知策略”。
示例问题:
实体数据查询 | 帮我查询下 xxx 接口过去24小时的平均响应时间及 P95 值是多少? |
xxx 应用调用 xx 服务的成功率趋势(近3天每小时数据)? | |
查询 ECS 实例 xxx 过去 3 天的 CPU 使用率峰值及出现时间 | |
获取所有 GPU 实例的实时显存使用率及 GPU 使用率? | |
返回xxx节点中,容器 CPU 使用率排名前五的容器名称及具体占比? | |
过去 1 小时内,集群中内存使用率超过 80% 的Deployment有哪些? | |
实体深度洞察 | 帮我查下xxx这个应用的耗时指标,以及其后续的趋势预测 |
应用 xxx 的资源水位是否正常? | |
从内存占用维度,检查哪些 Pod 存在异常 | |
辅助决策 | 导致接口xxx 超过3s的慢调用的主要原因是什么? |
分析某个 Deployment 下的 pod 是否发生过重启,是什么原因导致 | |
帮我查询一下CPU、Memory、Disk、Network负载最高的10个ECS实例,包括CPU、Memory、Disk、Netowork等,并生成巡检报告。 |