首页 企业云监控方案

企业云监控方案

更新时间: 2024-04-02 14:24:03

随着企业购买越来越丰富的云资源,如何高效监控云上资源的健康运行情况,成为IT稳定性保障的关键环节。本方案着重介绍如何使用云监控对阿里云多账号场景下,进行统一的监控管理。提升客户在多账号场景下更好的管理云上资源。

方案概述

随着企业购买越来越丰富的云资源,如何高效监控云上资源的健康运行情况,成为IT稳定性保障的关键环节。本方案着重介绍如何使用云监控对阿里云多账号场景下,进行统一的监控管理。提升客户在多账号场景下更好的管理云上资源。

方案优势

支持多账号资源统一监控告警

云监控跟资源目录(ResourceDirectory)产品已经做好集成。只需要在云监控中简单配置几步,就可以实现多账号资源的统一监控告警。

多云混合云一体化监控

云监控支持报警系统集成上云和数据集成上云这两大场景。针对报警集成上云,云监控提供了报警webhook,可以方便的把线下的报警信息集成到云上。针对数据集成上云的场景,云监控通过ArgusAgent将线下的数据转换为Promehteus指标,集成到云监控中进行统一展示和统一报警。

客户场景

跨账号公共云统一监控

场景描述

业务全部跑在公有云上,并且有多个云账号,想要统一管理云监控的数据。

目标客户

  • 公有云客户
  • 多账号企业
  • 希望将各个业务账号的监控数据集中管理

混合云统一监控

场景描述

业务跑在混合云上并且有专线,需要将云下/云上的监控数据汇聚,构建面向混合云场景下的监控体系。

目标客户

  • 混合云客户且有专线连通
  • 希望将IDC及云上的监控数据汇聚到一个报表

多云统一监控

场景描述

业务跑在多云环境并且有专线将各朵云打通,需要将各朵云监控数据统一在一个地方进行管理。

目标客户

  • 多云客户
  • 希望将各朵云上的监控数据汇聚到一个报表

客户案例

客户背景

某互联网金融公司X,国内专业的第三方理财机构,在国内属于领先地位。

客户痛点

客户在阿里云有好几个云账号,分别部署不同业务产品。其中有些账号是提供给自身的ISV厂商。客户会把部分产品外包给ISV供应商来研发。每个账号下面的资源稳定性保障都需要集团运维团队统一保障。在面对多个云账号都有云监控,如何简化多账号的管理成本,是摆在在客户面前首要解决的问题。

实施方案

  • 使用资源目录进行多账号统一管理
  • 开通云监控企业版本
  • 利用多账号统一数据收集做到多账号的统一报警与监控查看

架构示意

客户收益

  • 统一在一个账号内完成云监控报警配置
  • 统一在一个账号内查看各账号内的资源监控数据
  • 提升了客户运维效率,保障全站稳定性

方案架构

本方案主要介绍如何使用云监控进行企业级的监控管理。

架构图

图1:云监控架构

企业云监控常见场景:

  • 多云监控
  • 基于阿里云服务,通过统一方案拉通企业多个云厂商服务的监控数据,实现企业监控数据集中管理。
  • 混合云监控
  • 高效且低成本解决云下资源的监控数据汇聚,快速构建云上云下一体化监控体系。
  • 跨账号管理
  • 通过资源目录轻松实现企业跨账号统一监控资源。

图2:跨账号监控架构

产品费用及名词

产品费用

产品名称

产品说明

产品费用

资源目录RD

资源目录RD(Resource Directory)阿里云面向企业客户提供的一套多级账号和资源关系管理服务。

免费,详情参见产品定价

云监控

云监控(CloudMonitor)是一项针对阿里云资源和互联网应用进行监控的服务。

收费,详情参见产品计费

名词解释

名称

说明

企业管理主账号

在企业拥有多个阿里云账号时,特指拥有管理其他账号资源权限的管理员账号。用于管理多账号,统一配置多账号身份权限,统一查看各云账号账单,统一配置审计规则并下发到各成员账号。

安全性

云监控服务关联角色

在某些场景下,一个云服务为了完成自身的某个功能,需要获取其他云服务的访问权限。云监控服务关联角色(AliyunServiceRoleForCloudMonitor)是在某些场景下,为了完成云监控的某个功能,需要获取其他云服务的访问权限而提供的RAM角色。

以下我们举一个场景来说明一下。如果客户还需要监控其他云服务,也可以采用类似的配置策略。

场景:当云监控自动安装主机监控的插件时,需要授权使用云助手的相关权限。通过服务关联角色功能可以获取云助手的访问权限。

云监控服务关联角色的权限说明如下:

  • 角色名称:AliyunServiceRoleForCloudMonitor。
  • 角色权限策略名称:AliyunServiceRolePolicyForCloudMonitor。
  • 角色权限策略说明:获取您当前账号下所有实例通过云助手查看实例状态、执行命令和查看命令结果的权限。
{
    "Version": "1",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "ecs:RunCommand",
                "ecs:DescribeInvocations",
                "ecs:DescribeCloudAssistantStatus"
            ],
            "Resource": [
                "acs:ecs:*:*:instance/*",
                "acs:ecs:*:*:command/*"
            ]
        }
    ]
}

RAM角色管理云监控

RAM角色是一种虚拟用户,没有确定的身份认证密钥,需要被一个受信的实体用户扮演才能正常使用。在阿里云Landing Zone方案中我们推荐客户采用RAM角色的方式来管理云上各类资源。企业可以设置监控管理员这个角色来管理云监控。配置角色的访问权限:

  • 授权范围整个云账号,然后选择权限策略。
  • 系统策略:从权限策略名称列表,选择需要的权限。

权限策略名称

说明

AliyunCloudMonitorFullAccess

管理云监控的权限。

AliyunCloudMonitorReadOnlyAccess

只读访问云监控的权限。

注意事项

区域限制

云监控本身的产品部署跟阿里云的Region无关。不论客户的主机部署在哪个Region,都能够将数据统一收集进行统一的展示与报警。不存在监控数据延时,也不会增加带宽成本消耗。

云监控服务等级协议

自2021年12月01日起,云监控服务等级协议(SLA)生效。关于云监控服务等级协议,请参见云监控服务等级协议

云监控服务协议

关于云监控服务协议,请参见阿里云产品服务协议(通用)

产品限制

企业云监控中的资源水位报表仅支持的云服务包括:云服务器ECS、负载均衡SLB、云数据库RDS版(RDS)、高速通道-边界路由器、全球加速、全球加速共享型、Web应用防火墙等。具体可以查看创建报表任务

实施步骤

实施准备

  1. 在阿里云官网已经开通云监控服务。
  2. 在云监控里面开通企业云监控(收费)。
  3. 在云账号创建一个服务关联角色,选择云监控。
  4. 创建资源目录,并完成委派管理员(多账号统一管理)。

操作截图:

建议:

  • 在多账号设计的时候建议考虑设计一个负责监控的账号。可以委派这个账号来管理其他成员账号的云监控。


操作步骤

以下主要介绍企业云监控操作,云监控的其他操作客户可以在官网产品帮助页查看。

管理监控大盘

创建监控大盘的操作流程:

步骤

操作

说明

步骤一

创建数据源

数据源中的监控指标可以通过监控大盘展示。在接入线下IDC(Internet Data Center)、阿里云服务和其他云厂商服务的监控数据之前,您必须添加数据源。

步骤二

创建数据接入任务,具体操作如下:

您可以通过创建线下IDC、阿里云服务和其他云厂商服务的数据接入任务,将监控数据接入云监控。

步骤三

创建监控大盘,具体操作如下:

线下IDC、阿里云服务和其他云厂商服务的监控数据接入云监控后,您可以为监控数据创建监控大盘,通过监控大盘查看指定监控指标的监控图表。您可以通过以下方法创建监控大盘:

  • 创建业务大盘:您可以通过指定云服务、资源范围和数据源使用默认模板快速创建业务大盘。
  • 创建系统预置大盘:您可以选择云监控预置模板快速创建监控大盘。
  • 创建监控大盘:您可以为线下IDC、阿里云服务和其他云厂商服务的监控数据创建监控大盘。
步骤一:管理数据源

数据源是存储数据的仓库。在创建监控大盘之前,您需要先创建数据源。

创建数据源

  1. 登录云监控控制台
  2. 在左侧导航栏,选择企业云监控 > 数据源管理
  3. 单击添加数据源
  4. 设置数据源相关参数。

参数

说明

数据源

命名空间名称。

数据存储时长

监控指标在云监控中存储的时长。取值:

  • cms.s1.large(数据存储时长15天)
  • cms.s1.xlarge(数据存储时长32天)
  • cms.s1.2xlarge(数据存储时长63天)
  • cms.s1.3xlarge(数据存储时长93天)(默认值)
  • cms.s1.6xlarge(数据存储时长185天)
  • cms.s1.12xlarge(数据存储时长376天)

不同存储时长规格的价格,请参见价格表

数据源描述

数据源的描述信息。

  1. 单击确定
步骤二:创建数据接入任务
步骤一:创建监控大盘

管理资源水位报表

资源水位报表用于资源梳理、使用量判断和成本分析等场景。您可以对使用量高的资源进行升配,提高资源的性能;对使用量低的资源进行降配或释放,降低成本。

配置步骤:

  1. 登录云监控控制台
  2. 在左侧导航栏,选择企业云监控 > 资源水位报表
  3. 资源水位报表页面,单击右上角的创建报表任务
  4. 创建或修改报表任务面板,设置报表相关信息。

参数

说明

频率

企业资源报表任务的统计频率。取值:

  • 单次
  • 周频
  • 月频

名称

企业资源报表任务的名称。

描述

企业资源报表任务的描述。

起止时间

企业资源报表任务的统计时间。取值:

  • 单次:1天至31天,截止时间的次日生成报表。
  • 周频:周一至周日,截止时间的次日生成报表。
  • 月频:每月第一天至最后一天,次月第一天生成报表。说明 该参数无需设置,云监控自动根据报表任务统计一个月的数据。

产品及指标

企业资源报表支持的阿里云服务和该阿里云服务的监控项。支持的统计方法如下:

  • max:最大值。
  • min:最小值。
  • avg:平均值。
  • P90:计算1分钟内指定字段90%的数据,例如:监控项networkout_rate的统计结果为P90,计算周期为30ms,表示90%的networkout_rate请求小于30ms。
  • P95:计算1分钟内指定字段95%的数据,例如:监控项networkout_rate的统计结果为P95,计算周期为30ms,表示95%的networkout_rate请求小于30ms。
  1. 单击完成

开启秒级监控

秒级监控功能应用于对云服务的监控指标有高精度要求的监控场景。您可以一键开启目标云服务中指定监控指标的秒级监控功能。

操作步骤

  1. 登录云监控控制台
  2. 在左侧导航栏,选择企业云监控 > 秒级监控
  3. 秒级监控页面,打开目标云服务的秒级监控开关。
  4. 提示对话框,单击确定。开启目标云服务列表中所有监控指标的秒级监控功能。

故障排除

为什么IDC或其他云上数据无法收集?

  • 请确保云监控与线下IDC,以及线下IDC中间件所在主机之间可以正常通信。
  • 请确保云监控与AWS或腾讯云服务所在主机之间可以正常通信。

禁用ECS的内网后不能使用云监控

  • ECS服务器使用云监控服务,是不能禁用内网的。
  • 因为云监控的通讯地址open.cms.aliyun.com是解析在内网上的,通过内网来进行通讯获取数据,如果禁用了内网,云监控服务会出现无法正常使用,所以为了能够正常的使用云监控服务,必须要确保在服务器上能连通open.cms.aliyun.com的80端口。

方案卸载

卸载云监控插件

您可以操作卸载云监控Java、Go或C++版本插件。详见操作链接

卸载数据接入任务

当您无需再使用对应的数据源时,可以删除该数据源接入任务。

  1. 登录云监控控制台
  2. 在左侧导航栏,选择企业云监控 > 数据源管理
  3. 单击目标数据源对应已导入产品及指标列的查看数据接入
  4. 其它指标列表中,单击目标任务对应操作列的删除
  5. 确认删除对话框,单击确定

卸载资源水位报表

当您无需执行某个资源水位报表任务时,可以删除该报表任务。

  1. 登录云监控控制台
  2. 在左侧导航栏,选择企业云监控 > 资源水位报表
  3. 资源水位报表页面,单击报表任务页签。
  4. 报表任务页签,单击目标报表任务对应操作列的删除
  5. 确认删除对话框,单击确定




相关内容

云监控,查看产品链接

资源目录,查看产品链接