企业云监控方案
随着企业购买越来越丰富的云资源,如何高效监控云上资源的健康运行情况,成为IT稳定性保障的关键环节。本方案着重介绍如何使用云监控对阿里云多账号场景下,进行统一的监控管理。提升客户在多账号场景下更好的管理云上资源。
方案概述
随着企业购买越来越丰富的云资源,如何高效监控云上资源的健康运行情况,成为IT稳定性保障的关键环节。本方案着重介绍如何使用云监控对阿里云多账号场景下,进行统一的监控管理。提升客户在多账号场景下更好的管理云上资源。
方案优势
支持多账号资源统一监控告警
云监控跟资源目录(ResourceDirectory)产品已经做好集成。只需要在云监控中简单配置几步,就可以实现多账号资源的统一监控告警。
多云混合云一体化监控
云监控支持报警系统集成上云和数据集成上云这两大场景。针对报警集成上云,云监控提供了报警webhook,可以方便的把线下的报警信息集成到云上。针对数据集成上云的场景,云监控通过ArgusAgent将线下的数据转换为Promehteus指标,集成到云监控中进行统一展示和统一报警。
客户场景
跨账号公共云统一监控
场景描述
业务全部跑在公有云上,并且有多个云账号,想要统一管理云监控的数据。
目标客户
- 公有云客户
- 多账号企业
- 希望将各个业务账号的监控数据集中管理
混合云统一监控
场景描述
业务跑在混合云上并且有专线,需要将云下/云上的监控数据汇聚,构建面向混合云场景下的监控体系。
目标客户
- 混合云客户且有专线连通
- 希望将IDC及云上的监控数据汇聚到一个报表
多云统一监控
场景描述
业务跑在多云环境并且有专线将各朵云打通,需要将各朵云监控数据统一在一个地方进行管理。
目标客户
- 多云客户
- 希望将各朵云上的监控数据汇聚到一个报表
客户案例
客户背景
某互联网金融公司X,国内专业的第三方理财机构,在国内属于领先地位。
客户痛点
客户在阿里云有好几个云账号,分别部署不同业务产品。其中有些账号是提供给自身的ISV厂商。客户会把部分产品外包给ISV供应商来研发。每个账号下面的资源稳定性保障都需要集团运维团队统一保障。在面对多个云账号都有云监控,如何简化多账号的管理成本,是摆在在客户面前首要解决的问题。
实施方案
- 使用资源目录进行多账号统一管理
- 开通云监控企业版本
- 利用多账号统一数据收集做到多账号的统一报警与监控查看
架构示意
客户收益
- 统一在一个账号内完成云监控报警配置
- 统一在一个账号内查看各账号内的资源监控数据
- 提升了客户运维效率,保障全站稳定性
方案架构
本方案主要介绍如何使用云监控进行企业级的监控管理。
架构图
图1:云监控架构
企业云监控常见场景:
- 多云监控
- 基于阿里云服务,通过统一方案拉通企业多个云厂商服务的监控数据,实现企业监控数据集中管理。
- 混合云监控
- 高效且低成本解决云下资源的监控数据汇聚,快速构建云上云下一体化监控体系。
- 跨账号管理
- 通过资源目录轻松实现企业跨账号统一监控资源。
图2:跨账号监控架构
产品费用及名词
产品费用
产品名称 |
产品说明 |
产品费用 |
资源目录RD |
资源目录RD(Resource Directory)是阿里云面向企业客户提供的一套多级账号和资源关系管理服务。 |
免费,详情参见产品定价。 |
云监控 |
云监控(CloudMonitor)是一项针对阿里云资源和互联网应用进行监控的服务。 |
收费,详情参见产品计费。 |
名词解释
名称 |
说明 |
企业管理主账号 |
在企业拥有多个阿里云账号时,特指拥有管理其他账号资源权限的管理员账号。用于管理多账号,统一配置多账号身份权限,统一查看各云账号账单,统一配置审计规则并下发到各成员账号。 |
安全性
云监控服务关联角色
在某些场景下,一个云服务为了完成自身的某个功能,需要获取其他云服务的访问权限。云监控服务关联角色(AliyunServiceRoleForCloudMonitor)是在某些场景下,为了完成云监控的某个功能,需要获取其他云服务的访问权限而提供的RAM角色。
以下我们举一个场景来说明一下。如果客户还需要监控其他云服务,也可以采用类似的配置策略。
场景:当云监控自动安装主机监控的插件时,需要授权使用云助手的相关权限。通过服务关联角色功能可以获取云助手的访问权限。
云监控服务关联角色的权限说明如下:
- 角色名称:AliyunServiceRoleForCloudMonitor。
- 角色权限策略名称:AliyunServiceRolePolicyForCloudMonitor。
- 角色权限策略说明:获取您当前账号下所有实例通过云助手查看实例状态、执行命令和查看命令结果的权限。
{
"Version": "1",
"Statement": [
{
"Effect": "Allow",
"Action": [
"ecs:RunCommand",
"ecs:DescribeInvocations",
"ecs:DescribeCloudAssistantStatus"
],
"Resource": [
"acs:ecs:*:*:instance/*",
"acs:ecs:*:*:command/*"
]
}
]
}
RAM角色管理云监控
RAM角色是一种虚拟用户,没有确定的身份认证密钥,需要被一个受信的实体用户扮演才能正常使用。在阿里云Landing Zone方案中我们推荐客户采用RAM角色的方式来管理云上各类资源。企业可以设置监控管理员这个角色来管理云监控。配置角色的访问权限:
- 授权范围为整个云账号,然后选择权限策略。
- 系统策略:从权限策略名称列表,选择需要的权限。
权限策略名称 |
说明 |
AliyunCloudMonitorFullAccess |
管理云监控的权限。 |
AliyunCloudMonitorReadOnlyAccess |
只读访问云监控的权限。 |
注意事项
区域限制
云监控本身的产品部署跟阿里云的Region无关。不论客户的主机部署在哪个Region,都能够将数据统一收集进行统一的展示与报警。不存在监控数据延时,也不会增加带宽成本消耗。
云监控服务等级协议
自2021年12月01日起,云监控服务等级协议(SLA)生效。关于云监控服务等级协议,请参见云监控服务等级协议。
云监控服务协议
关于云监控服务协议,请参见阿里云产品服务协议(通用)。
产品限制
企业云监控中的资源水位报表仅支持的云服务包括:云服务器ECS、负载均衡SLB、云数据库RDS版(RDS)、高速通道-边界路由器、全球加速、全球加速共享型、Web应用防火墙等。具体可以查看创建报表任务。
实施步骤
实施准备
- 在阿里云官网已经开通云监控服务。
- 在云监控里面开通企业云监控(收费)。
- 在云账号创建一个服务关联角色,选择云监控。
- 创建资源目录,并完成委派管理员(多账号统一管理)。
操作截图:
建议:
- 在多账号设计的时候建议考虑设计一个负责监控的账号。可以委派这个账号来管理其他成员账号的云监控。
操作步骤
以下主要介绍企业云监控操作,云监控的其他操作客户可以在官网产品帮助页查看。
管理监控大盘
创建监控大盘的操作流程:
步骤 |
操作 |
说明 |
步骤一 |
数据源中的监控指标可以通过监控大盘展示。在接入线下IDC(Internet Data Center)、阿里云服务和其他云厂商服务的监控数据之前,您必须添加数据源。 |
|
步骤二 |
创建数据接入任务,具体操作如下: |
您可以通过创建线下IDC、阿里云服务和其他云厂商服务的数据接入任务,将监控数据接入云监控。 |
步骤三 |
创建监控大盘,具体操作如下: |
线下IDC、阿里云服务和其他云厂商服务的监控数据接入云监控后,您可以为监控数据创建监控大盘,通过监控大盘查看指定监控指标的监控图表。您可以通过以下方法创建监控大盘:
|
步骤一:管理数据源
数据源是存储数据的仓库。在创建监控大盘之前,您需要先创建数据源。
创建数据源
- 登录云监控控制台。
- 在左侧导航栏,选择企业云监控 > 数据源管理。
- 单击添加数据源。
- 设置数据源相关参数。
参数 |
说明 |
数据源 |
命名空间名称。 |
数据存储时长 |
监控指标在云监控中存储的时长。取值:
不同存储时长规格的价格,请参见价格表。 |
数据源描述 |
数据源的描述信息。 |
- 单击确定。
步骤二:创建数据接入任务
步骤一:创建监控大盘
管理资源水位报表
资源水位报表用于资源梳理、使用量判断和成本分析等场景。您可以对使用量高的资源进行升配,提高资源的性能;对使用量低的资源进行降配或释放,降低成本。
配置步骤:
- 登录云监控控制台。
- 在左侧导航栏,选择企业云监控 > 资源水位报表。
- 在资源水位报表页面,单击右上角的创建报表任务。
- 在创建或修改报表任务面板,设置报表相关信息。
参数 |
说明 |
频率 |
企业资源报表任务的统计频率。取值:
|
名称 |
企业资源报表任务的名称。 |
描述 |
企业资源报表任务的描述。 |
起止时间 |
企业资源报表任务的统计时间。取值:
|
产品及指标 |
企业资源报表支持的阿里云服务和该阿里云服务的监控项。支持的统计方法如下:
|
- 单击完成。
开启秒级监控
秒级监控功能应用于对云服务的监控指标有高精度要求的监控场景。您可以一键开启目标云服务中指定监控指标的秒级监控功能。
操作步骤
- 登录云监控控制台。
- 在左侧导航栏,选择企业云监控 > 秒级监控。
- 在秒级监控页面,打开目标云服务的秒级监控开关。
- 在提示对话框,单击确定。开启目标云服务列表中所有监控指标的秒级监控功能。
故障排除
为什么IDC或其他云上数据无法收集?
- 请确保云监控与线下IDC,以及线下IDC中间件所在主机之间可以正常通信。
- 请确保云监控与AWS或腾讯云服务所在主机之间可以正常通信。
禁用ECS的内网后不能使用云监控
- ECS服务器使用云监控服务,是不能禁用内网的。
- 因为云监控的通讯地址open.cms.aliyun.com是解析在内网上的,通过内网来进行通讯获取数据,如果禁用了内网,云监控服务会出现无法正常使用,所以为了能够正常的使用云监控服务,必须要确保在服务器上能连通open.cms.aliyun.com的80端口。
方案卸载
卸载云监控插件
您可以操作卸载云监控Java、Go或C++版本插件。详见操作链接
卸载数据接入任务
当您无需再使用对应的数据源时,可以删除该数据源接入任务。
- 登录云监控控制台。
- 在左侧导航栏,选择企业云监控 > 数据源管理。
- 单击目标数据源对应已导入产品及指标列的查看数据接入。
- 在其它指标列表中,单击目标任务对应操作列的删除。
- 在确认删除对话框,单击确定。
卸载资源水位报表
当您无需执行某个资源水位报表任务时,可以删除该报表任务。
- 登录云监控控制台。
- 在左侧导航栏,选择企业云监控 > 资源水位报表。
- 在资源水位报表页面,单击报表任务页签。
- 在报表任务页签,单击目标报表任务对应操作列的删除。
- 在确认删除对话框,单击确定。
相关内容
云监控,查看产品链接
资源目录,查看产品链接