内网监控

本文通过具体案例为您介绍如何通过云监控实现内网监控。

背景信息

随着越来越多的用户从经典网络迁移到更安全、更可靠的VPC网络环境,如何监控VPC内部服务是否正常响应就成为需要关注的问题。本文将通过具体案例说明如何监控VPC内ECS上的服务是否可用、VPC内ECS到RDS、Redis的连通性如何、VPC内SLB是否正常响应。

准备工作

内网监控的原理如下图所示。内网监控

首先需要您在主机上安装云监控插件,然后通过控制台创建监控任务,选择已安装插件的主机作为探测源,并配置需要探测的目标URL或端口。创建监控任务成功后,作为探测源的主机会通过云监控插件每分钟发送一个HTTP请求或Telnet请求到目标URL或端口,并将响应时间和状态码收集到云监控进行报警和图表展示。

操作步骤

说明
  • 作为探测源的服务器需要安装云监控插件。

  • 需要创建应用分组,并将作为探测源的服务器加入到分组中。

  1. 登录云监控控制台

  2. 在左侧导航栏,选择云资源监控 > 应用分组

  3. 应用分组页签,单击目标应用分组名称链接。

  4. 在目标应用分组的左侧导航栏,单击可用性监控

  5. 单击添加可用性监控

  6. 创建/修改可用性监控面板,设置任务相关参数。

    参数

    描述

    任务名称

    可用性监控的任务名称。

    探测源

    待探测的实例ID。

    探测目标

    待探测目标。取值:

    • URL或者IP:仅用于云服务器ECS。

    • 云数据库RDS版:仅用于云数据库RDS版。

    • 云数据库Redis版:仅用于云数据库Redis版。

    探测类型

    待探测类型。

    探测目标URL或者IP时,支持如下探测类型:

    • HTTP(S):需要输入待探测目标的URL地址。

    • TELNET:需要输入待探测目标的IP地址。

    • PING:需要输入待探测目标的IP地址。

    探测目标云数据库RDS版云数据库Redis版时,支持如下探测类型:

    • TELNET:需要选择实例ID和探测连接地址。

    • PING:需要选择实例ID和探测连接地址。

    请求方法

    探测类型的请求方法。请求方法包括HEADGETPOST

    说明

    探测目标URL或者IP,且探测类型HTTP(S)时,需要设置该参数。

    监控频率

    探测周期。

    取值:15秒、30秒、1分钟、2分钟、5分钟、15分钟、30分钟和60分钟。例如:选择1分钟频率,云监控将以1分钟/次的频率监控目标实例。

    说明

    探测目标URL或者IP,且探测类型HTTP(S)时,需要设置该参数。

    Headers

    站点探测时HTTP或HTTPS的Headers。

    Header格式:parameter1:value1

    多个Header之间用半角逗号(,)分隔。

    说明

    探测目标URL或者IP,且探测类型HTTP(S)时,需要设置该参数。

    提交内容

    站点探测时POST的请求内容。

    提交内容格式:parameter1=value1&parameter2=value2,仅支持英文。

    说明

    探测目标URL或者IP探测类型HTTP(S)请求方法POST时,需要设置该参数。

    匹配响应内容

    站点探测的匹配响应方式和匹配响应信息。

    当匹配响应信息非空时,站点探测读取HTTP服务器回应Body的前64KB,从中查找匹配响应信息。匹配响应方式取值:

    • 包含匹配内容则报警

    • 不包含匹配内容则报警

    说明

    探测目标URL或者IP,且探测类型HTTP(S)时,需要设置该参数。

    说明
    • 需要监控VPC内ECS本地进程是否响应正常时,可在探测源中选中所有需要监控的ECS,在探测目标中填写localhost:port/path格式的地址,进行本地探测。

    • 当您需要监控VPC内SLB是否正常响应时,可选择与SLB在同一VPC网络内的ECS实例作为探测源,在探测目标中填写SLB的地址进行探测。

    • 当您需要监控VPC内ECS实例中使用的RDS或Redis是否正常响应时,可将与ECS在同一VPC网络内的RDS或Redis添加到应用分组,并在探测源中选择相应的ECS实例,探测目标中选择RDS或Redis实例。

  7. 单击下一步

  8. 报警设置页面,设置报警相关参数。

    参数

    描述

    状态码

    当探测的状态码满足报警设置时,触发报警。

    状态码响应时间其中之一达到阈值后都会触发报警,报警会发送给应用分组的报警联系人组。

    响应时间

    当探测的响应时间满足报警设置时,触发报警。

    状态码响应时间其中之一达到阈值后都会触发报警,报警会发送给应用分组的报警联系人组。

    报警级别

    报警级别和报警通知方式。取值:

    • Critical(电话+短信+邮件+钉钉机器人)

    • Warning(短信+邮件+钉钉机器人)

    • Info(邮件+钉钉机器人)

    报警回调

    公网可访问的URL,用于接收云监控通过POST请求推送的报警信息。目前仅支持HTTP协议。关于如何设置报警回调,请参见使用阈值报警回调

    通道沉默周期

    报警发生后未恢复正常,间隔多久重复发送一次报警通知。取值:5分钟、15分钟、30分钟、60分钟、3小时、6小时、12小时和24小时。

    某监控指标达到报警阈值时发送报警,如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默周期内不会重复发送报警通知;如果监控指标在通道沉默周期后仍未恢复正常,则云监控再次发送报警通知。

    生效时间

    报警规则的生效时间。报警规则只在生效时间内发送报警通知,非生效时间内产生的报警只记录报警历史。

    日志服务

    如果您打开日志服务开关,当报警发生时,会将报警信息发送至日志服务的日志库。您需要设置日志服务的地域ProjectNameLogstore

    关于如何创建Project和Logstore,请参见快速入门

  9. 单击确定

  10. 单击目标任务对应操作列的图表

    您可以在监控图表中查看监控详情。监控图表