云监控为您提供企业级开放型一站式监控解决方案。Hologres已经接入云监控的云服务监控,方便您通过云监控全面了解Hologres实例的资源使用、业务运行及健康状况,及时收到异常报警并做出响应,保证应用程序运行顺畅。本文为您介绍如何通过云监控监测Hologres实例的相关指标并上报告警。

前提条件

使用限制

Hologres仅支持使用自定义大盘的方式查看实例的相关指标。

查看监控指标

  1. 登录云监控控制台
  2. 在左侧导航栏,单击云产品监控
  3. 大数据(数加)区域,单击交互式分析Hologres进入Hologres监控大盘。
  4. 单击地域后的地域图标,选择目标地域。切换地域
  5. 单击目标实例ID查看实例相关指标的状态。
    您也可以单击目标实例ID操作列的监控图表,查看实例相关指标的状态。
    实例状态
    您可以自定义查看实例指标的时间段,监控数据最多保留30天。

创建并配置报警规则

您可以根据业务的实际情况,创建并配置监控指标的阈值报警,当监控指标超过设定阈值后,系统自动发送报警通知,帮助您及时发现监控数据的异常并快速处理。创建并配置报警规则的步骤如下:

  1. 登录云监控控制台
  2. 在左侧导航栏,单击报警服务 > 报警规则
  3. 阈值报警页面,单击创建报警规则
  4. 创建报警规则页面,配置报警规则的各项参数。
    创建报警规则
    参数 描述
    产品 选择交互式分析Hologres
    资源范围 报警规则的作用范围。取值如下:
    • 全部资源:表示该规则对用户名下对应产品的所有实例生效。例如:您设置了全部资源粒度的Hologres CPU使用率大于80%报警,则只要用户名下有Hologres的CPU使用率大于80%,就会发送报警通知。

      资源范围选择全部资源时,报警的资源最多为1000个,超过1000个可能会导致达到阈值不报警的问题,建议您使用应用分组按业务划分资源后再设置报警。

    • 实例:表示该规则只对某个具体的实例生效。例如:您如果设置了实例粒度的主机CPU使用率大于80%报警,则当该实例CPU使用率大于80%时,会发送报警通知。
    规则名称 报警规则的名称。
    规则描述 报警规则的主体,定义在监控数据满足指定条件时,触发报警规则。例如:规则描述为CPU使用率5分钟的平均值>=90%,则报警服务会5分钟检查一次数据是否满足平均值>=90%。
    通道沉默周期 指报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。
    生效时间 报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。
    通知对象 需要发送报警的联系人组。
    报警级别
    • 电话+短信+邮件+钉钉机器人
    • 短信+邮件+钉钉机器人
    • 邮件+钉钉机器人
    弹性伸缩 产品选择弹性伸缩时,您需要设置弹性伸缩的地域弹性伸缩组弹性伸缩规则。在发生报警时触发相应的伸缩规则。
    日志服务 产品选择日志服务时,您需要设置日志服务的地域ProjectLogstore。在发生报警时,将报警信息写入日志。
    邮件备注 自定义报警邮件补充信息。填写邮件备注后,发送报警的邮件通知中会附带您的备注。
    报警回调 填写公网可访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。
  5. 单击确认
    您也可以单击目标实例ID操作列的报警规则,查看或修改已有的报警规则。修改报警规则

配置一键报警

您可以在云监控为Hologres开启一键报警功能,为所有实例设置默认的告警规则,方便对多个常见的重要指标进行异常告警,快速发现问题。Hologres默认的告警规则如下:
  • 如果存储水位(Critical)连续3次>90%就报警,通知对象为云账号报警联系人测试组
  • 如果SQL连接数(Info)连续3次>=95个就报警,通知对象为云账号报警联系人
  • 如果内存水位(Warn)连续3次>=95%就报警,通知对象为云账号报警联系人
  • 如果CPU水位(Info)连续3次>=99%就报警,通知对象为云账号报警联系人
说明 每次告警的周期为5分钟。
配置一键报警的注意事项如下:
  • 一键报警功能开启后,默认开启云监控预置的报警规则,快速建立云监控报警体系监控重要指标,并未全面覆盖所有监控指标。
  • 一键报警功能开启后,对应的报警规则作用于您选中产品的当前实例及后续新生成的实例。
  • 一键报警功能支持您对预置的报警规则进行修改、禁用和删除操作。

配置一键报警的步骤如下:

  1. 登录云监控控制台
  2. 在左侧导航栏,单击报警服务 > 一键报警,进入一键报警页面。
  3. 一键报警列表,单击交互式分析Hologres一键报警开关,开启一键报警。开启一键报警
  4. 单击交互式分析Hologres左侧的地域图标,查看云监控为您自动生成的报警规则。一键规则
  5. 可选:您可以单击操作栏中的禁用修改删除,禁用、修改、删除对应的报警规则。

使用自定义大盘定制监控指标

云监控已为您初始化了用户维度的Hologres监控大盘,如果您需要查看其他数据,可以使用自定义大盘定制监控指标。自定义监控大盘的步骤如下:

  1. 登录云监控控制台
  2. 在左侧导航栏,单击Dashboard > 自定义大盘,进入当前监控大盘页面。
  3. 在顶部菜单栏右侧,单击创建监控大盘
  4. 创建视图组对话框输入新建的监控大盘名称。
  5. 单击创建,系统自动跳转至新建的监控大盘页面。
  6. 单击右上角的添加图表,进入添加图表页面。添加图表
  7. 选择图表类型区域,选择折线图、面积图、TopN表格、热力图或饼图中任意一种图表类型。
  8. 选择监控项区域,配置云产品监控日志监控自定义监控
    云产品监控为例,选择云产品为交互式分析Hologres并为图表命名,配置监控项资源自定义
    Hologres支持的实例监控项如下表所示。
    监控项 描述
    CPU水位 实例CPU的使用百分比。
    内存水位 实例内存的使用百分比。
    存储已用容量 实例存储的使用量。
    存储水位 实例存储水位。
    SELECT语句QPS 实例每秒SELECT语句数。
    INSERT语句QPS 实例每秒INSERT语句数。
    UPDATE语句QPS 实例每秒UPDATE语句数。
    DELETE语句QPS 实例每秒DELETE语句数。
    连接数 实例的SQL连接数,区分DB展示。
    SQL总连接数 实例的SQL总连接数。
    失败查询数 实例一段时间的失败查询数量。
    实时导入RPS 实例每秒实时导入数据条数。
    每秒Insert记录数 实例每秒INSERT数据条数。
    每秒Update记录数 实例每秒UPDATE数据条数。
    每秒Delete记录数 实例每秒DELETE数据条数。
    Select语句响应时间 Select Query查询的延迟时间。
    Insert语句响应时间 Insert Query查询的延迟时间。
    Update语句响应时间 Update Query查询的延迟时间。
    Delete语句响应时间 Delete Query查询的延迟时间。
    查询时长P95 95% SELECT查询的延迟时间。
    查询时长P99 99% SELECT查询的延迟时间。
    查询时长P999 99.9% SELECT查询的延迟时间。