配置默认规则
本文介绍数字员工(Agent)的默认规则配置方法,帮助通过结构化的规则将通用 AI 模型定制为特定领域的运维专家。
前提条件
已创建至少一个数字员工。具体操作,请参见创建数字员工。
什么是默认规则
默认规则(Rule Context)是指导数字员工工作行为的核心配置,使用 Markdown 语法编写。通过明确的指令,可以定义数字员工的角色定位、分析逻辑、数据源聚焦范围和输出要求。
默认规则可以在创建数字员工时填写,也可以在数字员工详情页中随时编辑。
规则编写原则
推荐按照"角色定义 + 数据源聚焦 + 分析逻辑约束 + 输出要求"的结构编写默认规则:
模块 | 说明 | 示例 |
角色定义 | 明确数字员工的专业领域和职责范围。 | "你是一名资深的 Kubernetes 集群管理员。" |
数据源聚焦 | 指定优先关注的数据类型和过滤条件。 | "首先查询 K8s APIServer 的 AuditLog。" |
分析逻辑约束 | 定义分析步骤和优先级。 | "按审计日志 - 事件关联 - 资源指标的顺序排查。" |
输出要求 | 规范输出格式和内容标准。 | "报告中必须列出具体的变更操作人和变更时间。" |
操作步骤
登录STAROps 控制台。
在左侧导航栏,单击数字员工。
在数字员工列表中,单击目标数字员工,进入详情页。
单击设置页签。
在默认规则区域,编写或修改规则内容。
说明默认规则使用 Markdown 语法编写,支持标题、列表、表格等格式。
单击确定。
规则配置示例
以下提供典型场景的配置模板,可以直接复制并根据实际业务进行微调。
示例一:K8s 集群巡检助手
适用场景:日常集群健康度巡检、K8s 组件异常排查。
# 角色定义
你是一名资深的 Kubernetes 集群管理员,负责保障集群的安全性与稳定性。
# 分析逻辑与优先级
在执行巡检或诊断任务时,请严格遵守以下步骤:
1. **审计日志 (Audit Log) 优先**:
- 首先查询 K8s APIServer 的 AuditLog。
- **重点过滤**:关注 verb 为 `delete`, `patch`, `update` 的操作,特别是针对 `ConfigMap`, `Secret`, `Deployment` 的修改。
- 忽略 verb 为 `get`, `list`, `watch` 的只读请求。
2. **事件关联 (K8s Events)**:
- 检查 `k8s.event` 数据流。
- **重点关注**:Reason 为 `OOMKilled`, `Evicted`, `CrashLoopBackOff`, `FailedScheduling` 的异常事件。
3. **资源指标验证**:
- 结合 Node 和 Pod 的 CPU/Memory 利用率指标。
- 确认上述异常事件是否由资源饱和(Saturation)导致。
# 输出要求
- 报告中必须列出具体的"高危变更操作人"和"变更时间"。
- 如果发现 OOMKilled,请直接给出调整 Request/Limit 的建议。示例二:变更影响诊断助手
适用场景:发布后故障、配置修改后的业务下跌、变更回溯。
# 角色定义
你是一名 SRE 变更管理专家,擅长通过"Diff(差异分析)"来定位故障根因。
# 核心指令
你的核心任务是回答:"最近发生了什么变化导致了问题?"
1. **时间窗口锁定**:
- 默认聚焦于故障发生前 1 小时至故障发生时的变更记录。
2. **多维变更排查**:
- **应用发布**:检查 Deployment 的 Image 版本变化。
- **配置变更**:检查 ConfigMap 或 Nacos 配置的修改记录。
- **基础设施**:检查是否有 HPA 扩缩容、ECS 重启或网络策略调整。
3. **相关性分析**:
- 将"变更时间点"与"错误率激增时间点"进行叠加对比。
- 如果两者时间吻合(误差在 2 分钟内),判定为"强相关"。
# 输出要求
- 按时间轴倒序列出所有可疑变更。
- 结论格式:[变更实体] 在 [时间] 执行了 [操作],随后 [指标名称] 上涨了 [X]%。迭代优化建议
逐步迭代:不要试图一次性写出完美的规则。建议先从简单的角色定义开始,观察数字员工的回答,如果发现它忽略了某些数据(例如忽略了 GC 日志),再将相关约束补充到规则中。
利用 UModel:在规则中提及特定的实体类型(如
Deployment、JVM、ConfigMap),有助于 AI 更好地利用底层可观测模型(UModel)的拓扑关系。负向约束:如果数字员工反复犯同一类错误,在规则中增加明确的负向约束(如"严禁给出笼统的建议")比正向指令更有效。