全托管ECS服务监控报警配置

本文讲述全托管服务ECS场景的业务监控报警配置。

工作原理

image

  • 使用阿里云Prometheus服务内置的多租能力,给ECS的实例打上租户标签,主机监控上设置ECS标签注入,监控Agent即可实现将租户的指标转发到租户对应的云服务实例中。

  • 通过设置服务商的RemoteWrite链接,可以把租户的监控数据再投递一份到服务商的账号下,即可实现服务商可查看所有租户的监控数据,租户仅可查看自己的监控数据。

配置步骤

服务商对VPC环境接入主机监控

  • 重要

    如果是已有VPC,服务商需去ARMS控制台接入中心进行接入,并选择对应的组件,以主机监控为例,注意框出的部分需按照以下设定配置,才能满足该VPC下通过此计算巢服务创建出来的ECS自动安装NodeExporter,且监控指标能转发到相应的租户账号下。

    • NodeExporter 安装方式:选择自动安装

    • 主机服务发现方式:选择标签选择

    • ECS实例标签:key设置为acs:computenest:serviceId, value设置为service-xxx

    • 自定义标签注入tenant_clusterid, tenant_token, tenant_userid, tenant_cloudproductcodeimage

  • 如果是新建VPC,需要在ROS模板中编排接入主机监控相关的资源,更多信息,请参见ALIYUN::ARMS::Environment

      Environment:
        Type: 'ALIYUN::ARMS::Environment'
        Properties:
          ManagedType:
            Ref: ManagedType
          EnvironmentSubType: ECS
          EnvironmentName:
            Ref: EnvironmentName
          Tags:
            Ref: Tags
          FeePackage:
            Ref: FeePackage
          PrometheusInstanceId:
            Ref: PrometheusInstanceId
          ResourceGroupId:
            Ref: ResourceGroupId
          GrafanaWorkspaceId:
            Ref: GrafanaWorkspaceId
          BindResourceId:
            Ref: BindResourceId
          EnvironmentType:
            Ref: EnvironmentType
      EnvironmentFeature:
        Type: 'ALIYUN::ARMS::EnvironmentFeature'
        Properties:
          EnvironmentId:
            Ref: Environment
          FeatureVersion: 1.1.17
          FeatureName: metric-agent

配置Grafana大盘

目前一个服务实例只支持展示一个大盘,如果服务商有多个大盘,需要将多个大盘组合成一个大盘。在阿里云托管版的Grafana上创建此大盘,得到此大盘的链接。

配置产品标识和对应的大盘链接

需要设置服务标识和监控大盘信息:

  1. 服务标识:表示服务在监控系统中的唯一标识,目前cn-mariadb这个产品标识用于测试,所有服务共享使用该产品标识。目前cn-mariadb已开通杭州和中国香港两个地域,支持在这两个地域下测试。

    说明

    服务上线需要使用专用服务标识的,请加入文章开头的技术支持群获取技术支持

  2. 监控大盘设置包括监控大盘标题和Grafana大盘链接,监控大盘信息与服务标识是对应关系,大盘链接为上述创建大盘的链接,大盘标题为上述配置的大盘的标题。

    说明

    这里的配置目前需要一定的手工配置,请加入技术支持群获取支持

以下是示例服务中使用cn-mariadb产品标识的配置信息。image

配置告警

服务商侧接入告警

  • 如果是接入的常用组件,会默认生成最佳实践的告警规则。

    在阿里云Prometheus控制台接入管理已接入组件界面,单击对应组件的告警列表即可查看该组件默认生成的告警规则。image

  • 对于用户自定义告警规则。