云监控通过监控流计算的业务延迟监控项,帮助您监测流计算服务的业务运行情况,并支持您对监控项设置报警规则。您购买流计算服务后,云监控会自动对上述监控项收集数据。

监控服务

  • 监控项
    监控项 维度 单位 含义 最小监控粒度
    业务延迟 Project维度、Job维度 数据生产时间到数据被处理时间的差值 1分钟
    读入RPS Project维度、Job维度 RPS 任务平均每秒读入的数据条数 1分钟
    写出RPS Project维度、Job维度 RPS 任务平均每秒写出的数据条数 1分钟
    FailoverRate Project维度、Job维度 % 衡量当前Job发生failover的频率,越低越好 1分钟
    说明
    • 监控数据最多保存31天。
    • 最多可连续查看14天的监控数据。
  • 查看监控数据
    1. 登录云监控控制台
    2. 进入云服务监控下的流计算的实例列表。
    3. 点击实例名称或操作中的监控图表即可进入实例监控详情页面,查看各项指标。
    4. 点击页面上方的时间范围快速选择按钮或精确选择功能,监控数据最长支持查看连续14天的监控数据。
    5. 点击监控图右上角的放大按钮,可查看监控大图。

报警服务

  • 参数说明
    • 监控项:即流计算的服务提供的监控指标。
    • 统计周期:报警系统会按照这个周期检查您对应的监控数据是否超过了报警阈值。例如设置内存使用率报警规则的统计周期为 1 分钟,则每间隔 1 分钟会检查一次内存使用率是否超过了阈值。
    • 统计方法:统计方法指对超出阈值范围的设置。统计方法中可以设置平均值、最大值、最小值、求和值。
      • 平均值:统计周期内监控数据的平均值。例如统计方法选择 15 分钟内采集的所有监控数据的平均值,则当平均值大于 80% 时,才算超过阈值。
      • 最大值:统计周期内监控数据的最大值。例如统计方法选择 15 分钟内采集的所有监控数据的最大值,则当最大值大于 80% 时,才算超过阈值。
      • 最小值:统计周期内监控数据的最小值。例如统计方法选择 15 分钟内采集的所有监控数据的最小值,则当最小值大于 80% 时,才算超过阈值。
      • 求和值:统计周期内监控数据的总和。例如统计方法选择 15 分钟内采集的所有监控数据的求和值,则当求和值大于 80% 时,才算超过阈值。流量类指标需要用到此类统计方法。
    • 连续次数:指连续几个统计周期监控项的值持续超过阈值后触发报警。

      例如:设置 CPU 使用率超过 80% 报警,统计周期为 5 分钟,连续 3 次超过阈值后报警,则第一次探测 CPU 使用率超过 80% 时,不会发出报警通知。5 分钟后第二次探测 CPU 使用率超过 80%,也不会发出报警。第三次探测仍然超过 80% 时,才会发出报警通知。即从实际数据第一次超过阈值到最终发出报警规则,最少需要消耗的时间为统计周期×(连续探测次数-1)=5×(3-1)=10分钟。

  • 设置单条报警规则
    1. 登录云监控控制台
    2. 进入云服务监控下的流计算的实例列表。
    3. 点击实例名称或操作中的监控图表即可进入实例监控详情页面。
    4. 点击监控图右上角的铃铛按钮或页面右上角的新建报警规则,可对该实例对应的监控项设置报警规则。
  • 设置批量报警规则
    1. 登录云监控控制台
    2. 进入云服务监控下的流计算实例列表。
    3. 实例列表页面选中所需实例后,在页面下方点击设置报警规则,即可批量添加报警规则。