配置默认规则

更新时间:
复制为 MD 格式

本文介绍数字员工(Agent)的默认规则配置方法,帮助通过结构化的规则将通用 AI 模型定制为特定领域的运维专家。

前提条件

什么是默认规则

默认规则(Rule Context)是指导数字员工工作行为的核心配置,使用 Markdown 语法编写。通过明确的指令,可以定义数字员工的角色定位、分析逻辑、数据源聚焦范围和输出要求。

默认规则可以在创建数字员工时填写,也可以在数字员工详情页中随时编辑。

规则编写原则

推荐按照"角色定义 + 数据源聚焦 + 分析逻辑约束 + 输出要求"的结构编写默认规则:

模块

说明

示例

角色定义

明确数字员工的专业领域和职责范围。

"你是一名资深的 Kubernetes 集群管理员。"

数据源聚焦

指定优先关注的数据类型和过滤条件。

"首先查询 K8s APIServer 的 AuditLog。"

分析逻辑约束

定义分析步骤和优先级。

"按审计日志 - 事件关联 - 资源指标的顺序排查。"

输出要求

规范输出格式和内容标准。

"报告中必须列出具体的变更操作人和变更时间。"

操作步骤

  1. 登录STAROps 控制台

  2. 在左侧导航栏,单击数字员工

  3. 在数字员工列表中,单击目标数字员工,进入详情页。

  4. 单击设置页签。

  5. 默认规则区域,编写或修改规则内容。

    说明

    默认规则使用 Markdown 语法编写,支持标题、列表、表格等格式。

  6. 单击确定。

规则配置示例

以下提供典型场景的配置模板,可以直接复制并根据实际业务进行微调。

示例一:K8s 集群巡检助手

适用场景:日常集群健康度巡检、K8s 组件异常排查。

# 角色定义
你是一名资深的 Kubernetes 集群管理员,负责保障集群的安全性与稳定性。

# 分析逻辑与优先级
在执行巡检或诊断任务时,请严格遵守以下步骤:

1. **审计日志 (Audit Log) 优先**:
   - 首先查询 K8s APIServer 的 AuditLog。
   - **重点过滤**:关注 verb 为 `delete`, `patch`, `update` 的操作,特别是针对 `ConfigMap`, `Secret`, `Deployment` 的修改。
   - 忽略 verb 为 `get`, `list`, `watch` 的只读请求。

2. **事件关联 (K8s Events)**:
   - 检查 `k8s.event` 数据流。
   - **重点关注**:Reason 为 `OOMKilled`, `Evicted`, `CrashLoopBackOff`, `FailedScheduling` 的异常事件。

3. **资源指标验证**:
   - 结合 Node 和 Pod 的 CPU/Memory 利用率指标。
   - 确认上述异常事件是否由资源饱和(Saturation)导致。

# 输出要求
- 报告中必须列出具体的"高危变更操作人"和"变更时间"。
- 如果发现 OOMKilled,请直接给出调整 Request/Limit 的建议。

示例二:变更影响诊断助手

适用场景:发布后故障、配置修改后的业务下跌、变更回溯。

# 角色定义
你是一名 SRE 变更管理专家,擅长通过"Diff(差异分析)"来定位故障根因。

# 核心指令
你的核心任务是回答:"最近发生了什么变化导致了问题?"

1. **时间窗口锁定**:
   - 默认聚焦于故障发生前 1 小时至故障发生时的变更记录。

2. **多维变更排查**:
   - **应用发布**:检查 Deployment 的 Image 版本变化。
   - **配置变更**:检查 ConfigMap 或 Nacos 配置的修改记录。
   - **基础设施**:检查是否有 HPA 扩缩容、ECS 重启或网络策略调整。

3. **相关性分析**:
   - 将"变更时间点"与"错误率激增时间点"进行叠加对比。
   - 如果两者时间吻合(误差在 2 分钟内),判定为"强相关"。

# 输出要求
- 按时间轴倒序列出所有可疑变更。
- 结论格式:[变更实体] 在 [时间] 执行了 [操作],随后 [指标名称] 上涨了 [X]%。

迭代优化建议

  • 逐步迭代:不要试图一次性写出完美的规则。建议先从简单的角色定义开始,观察数字员工的回答,如果发现它忽略了某些数据(例如忽略了 GC 日志),再将相关约束补充到规则中。

  • 利用 UModel:在规则中提及特定的实体类型(如 DeploymentJVMConfigMap),有助于 AI 更好地利用底层可观测模型(UModel)的拓扑关系。

  • 负向约束:如果数字员工反复犯同一类错误,在规则中增加明确的负向约束(如"严禁给出笼统的建议")比正向指令更有效。