本文通过具体案例为您介绍如何通过云监控实现内网监控。
背景信息
随着越来越多的用户从经典网络迁移到更安全、更可靠的VPC网络环境,如何监控VPC内部服务是否正常响应就成为需要关注的问题。本文将通过具体案例说明如何监控VPC内ECS上的服务是否可用、VPC内ECS到RDS、Redis的连通性如何、VPC内SLB是否正常响应。
准备工作
内网监控的原理如下图所示。
首先需要您在主机上安装云监控插件,然后通过控制台创建监控任务,选择已安装插件的主机作为探测源,并配置需要探测的目标URL或端口。创建监控任务成功后,作为探测源的主机会通过云监控插件每分钟发送一个HTTP请求或Telnet请求到目标URL或端口,并将响应时间和状态码收集到云监控进行报警和图表展示。
操作步骤
作为探测源的服务器需要安装云监控插件。
需要创建应用分组,并将作为探测源的服务器加入到分组中。
登录云监控控制台。
在左侧导航栏,选择
。在应用分组页签,单击目标应用分组名称链接。
在目标应用分组的左侧导航栏,单击可用性监控。
单击添加可用性监控。
在创建/修改可用性监控面板,设置任务相关参数。
参数
描述
任务名称
可用性监控的任务名称。
探测源
待探测的实例ID。
探测目标
待探测目标。取值:
URL或者IP:仅用于云服务器ECS。
云数据库RDS版:仅用于云数据库RDS版。
云数据库Redis版:仅用于云数据库Redis版。
探测类型
待探测类型。
当探测目标为URL或者IP时,支持如下探测类型:
HTTP(S):需要输入待探测目标的URL地址。
TELNET:需要输入待探测目标的IP地址。
PING:需要输入待探测目标的IP地址。
当探测目标为云数据库RDS版或云数据库Redis版时,支持如下探测类型:
TELNET:需要选择实例ID和探测连接地址。
PING:需要选择实例ID和探测连接地址。
请求方法
探测类型的请求方法。请求方法包括HEAD、GET和POST。
说明当探测目标为URL或者IP,且探测类型为HTTP(S)时,需要设置该参数。
监控频率
探测周期。
取值:15秒、30秒、1分钟、2分钟、5分钟、15分钟、30分钟和60分钟。例如:选择1分钟频率,云监控将以1分钟/次的频率监控目标实例。
说明当探测目标为URL或者IP,且探测类型为HTTP(S)时,需要设置该参数。
Headers
站点探测时HTTP或HTTPS的Headers。
Header格式:
parameter1:value1
。多个Header之间用半角逗号(,)分隔。
说明当探测目标为URL或者IP,且探测类型为HTTP(S)时,需要设置该参数。
提交内容
站点探测时POST的请求内容。
提交内容格式:
parameter1=value1¶meter2=value2
,仅支持英文。说明当探测目标为URL或者IP、探测类型为HTTP(S)和请求方法为POST时,需要设置该参数。
匹配响应内容
站点探测的匹配响应方式和匹配响应信息。
当匹配响应信息非空时,站点探测读取HTTP服务器回应Body的前64KB,从中查找匹配响应信息。匹配响应方式取值:
包含匹配内容则报警
不包含匹配内容则报警
说明当探测目标为URL或者IP,且探测类型为HTTP(S)时,需要设置该参数。
说明需要监控VPC内ECS本地进程是否响应正常时,可在探测源中选中所有需要监控的ECS,在探测目标中填写
localhost:port/path
格式的地址,进行本地探测。当您需要监控VPC内SLB是否正常响应时,可选择与SLB在同一VPC网络内的ECS实例作为探测源,在探测目标中填写SLB的地址进行探测。
当您需要监控VPC内ECS实例中使用的RDS或Redis是否正常响应时,可将与ECS在同一VPC网络内的RDS或Redis添加到应用分组,并在探测源中选择相应的ECS实例,探测目标中选择RDS或Redis实例。
单击下一步。
在报警设置页面,设置报警相关参数。
参数
描述
状态码
当探测的状态码满足报警设置时,触发报警。
状态码和响应时间其中之一达到阈值后都会触发报警,报警会发送给应用分组的报警联系人组。
响应时间
当探测的响应时间满足报警设置时,触发报警。
状态码和响应时间其中之一达到阈值后都会触发报警,报警会发送给应用分组的报警联系人组。
报警级别
报警级别和报警通知方式。取值:
Critical(电话+短信+邮件+钉钉机器人)
Warning(短信+邮件+钉钉机器人)
Info(邮件+钉钉机器人)
报警回调
公网可访问的URL,用于接收云监控通过POST请求推送的报警信息。目前仅支持HTTP协议。关于如何设置报警回调,请参见使用阈值报警回调。
通道沉默周期
报警发生后未恢复正常,间隔多久重复发送一次报警通知。取值:5分钟、15分钟、30分钟、60分钟、3小时、6小时、12小时和24小时。
某监控指标达到报警阈值时发送报警,如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默周期内不会重复发送报警通知;如果监控指标在通道沉默周期后仍未恢复正常,则云监控再次发送报警通知。
生效时间
报警规则的生效时间。报警规则只在生效时间内发送报警通知,非生效时间内产生的报警只记录报警历史。
日志服务
如果您打开日志服务开关,当报警发生时,会将报警信息发送至日志服务的日志库。您需要设置日志服务的地域、ProjectName和Logstore。
关于如何创建Project和Logstore,请参见快速入门。
单击确定。
单击目标任务对应操作列的。
您可以在监控图表中查看监控详情。