什么是云服务诊断
本文介绍云服务诊断的功能和使用方法,如需更多帮助请查看云服务诊断目录下其他帮助文档。欢迎加入钉钉交流群(群号:86570007290)与产品团队分享您的问题和观点。
云服务诊断是面向客户运维工程师及开发者(以下简称为“用户”)提供的一款阿里云资源运维工具,包含「健康状态」和「诊断」两大核心功能。
当您的业务系统出现问题时,可第一时间查看账号下云资源(每个实例)「健康状态」是否正常。若正常则可快速排除阿里云云服务的异常,转而及时排查其它方面原因。您可通过「诊断」实时排查网站无法访问、ECS无法访问、错误配置、安全风险、高负载、宕机、超限、欠费等问题,并根据修复建议及时解决问题,快速恢复业务。
核心功能
健康状态
健康状态的定义
健康状态指云资源的可用性状态:不可用为异常,可用为正常。
云资源:
云产品每一个可独立管理及运行的实例或服务统称为一个云资源,如ECS的每一个实例、OSS的每一个bucket。
不可用定义:
因阿里云原因(如故障、计划内维护变更等)导致客户某个云资源在某个时段完全不响应用户正常请求(如宕机、完全无法连通、全部返回5xx或不返回等)或服务可用性低于正常波动范围(根据服务特点而定),则认为该云资源在该时段内服务不可用。(因为云产品较多,差异较大,不同云产品在不可用定义上可能存在差别,判断标准也有所不同。详情请参见健康状态支持产品及说明)
健康状态的意义
云资源健康状态异常,表示该云资源出现了故障而无法正常工作,且该故障往往只能由阿里云工程师进行修复(部分情况可通过重启实例进行修复)。一般情况下阿里云工程师会监测故障并主动修复,若未及时修复或影响到用户正常业务,请及时联系阿里云客服进行处理。
云资源健康状态正常,表示该云资源可用,即未发生必须由阿里云工程师进行修复的故障。若此时您的业务系统存在异常,可先排除阿里云云服务的原因,转而及时排查其它方面原因。可进一步检查配置是否正确、是否存在安全风险、是否高负载、是否超限、是否欠费等。您可通过诊断工具快速排查常见问题,详见诊断章节。
健康状态直观展示云资源可用性,当您遇到问题时,可第一时间判断是否为阿里云云服务原因,从而缩小问题排查范围、缩短问题修复时间。
健康状态的使用
首次使用健康状态需用户开通并创建服务关联角色。健康状态有多处入口,在任意入口均可开通。
主账号授予RAM子账号AliyunHealthFullAccess权限后,子账号才能创建该服务关联角色。主账号创建服务关联角色后子账号无需再创建,但子账号需要有AliyunHealthFullAccess或AliyunHealthReadOnlyAccess权限才可访问健康状态。
部分云资源的健康状态更新需要通过AliyunServiceRoleForHealth服务关联角色调用云监控查询监控数据API,调用次数累计至用户查询监控数据API的总调用次数。每个云资源每日平均调用4次,涉及的云资源包括对象存储的bucket、CDN的域名、DCDN的域名、视频直播的域名、函数计算的服务。查询监控数据API每个用户每月有100万次免费调用额度,详见免费额度。
查看当前最新的健康状态:
登录控制台,在控制台首页-概览页面可快速查看当前是否存在健康状态异常的云资源。
查看历史的健康状态:
在控制台首页-运维管理页面,可查看健康状态概览,支持查看最新状态、今天状态以及15日以内的历史状态。
点击「查看详情」,可跳转至健康状态详情页面,查看各资源每小时的健康状态。点击资源ID可跳转至该资源控制台。
诊断
诊断的定义
诊断指对一个或多个云资源某种工作状态(配置/功能/性能/连接/安全等)的检测分析,并对异常进行详细描述并提供修复建议。
诊断的意义
通过诊断工具,用户无需掌握过多的云产品知识,根据问题现象选择对应的诊断场景即可实时发起诊断,只需1-2分钟就能完成诊断。若诊断排查到异常,诊断报告会给出详细的异常描述以及修复建议,用户根据修复建议即可解决问题,快速恢复业务。
相比逐个摸排整个系统、分析大量的日志、等待客服,用户通过诊断工具可更快定位问题和解决问题,缩短问题解决周期。同时诊断工具降低了用户的使用门槛,提升了用户体验。
诊断的使用
诊断操作需要在用户的云资源上执行数据采集程序并收集检查结果,采集的信息主要包含云资源运行状态以及运行日志中关键错误信息等,不会采集任何与用户相关的业务信息以及敏感数据,请放心使用。
为了方便用户使用,从2024年11月8日开始陆续开放「一键诊断」功能的邀测。「一键诊断」可一键为用户全方位诊断云上资源,一次性解决问题,免去用户逐个排查的烦恼。邀测期间可针对ECS资源进行一键诊断。欢迎加入钉钉交流群(群号:86570007290)获取邀测链接。「一键诊断」详细说明请参见一键诊断。
多种方式发起诊断:
登录控制台,在控制台首页侧边栏可快速发起诊断(侧边栏收起时,可点击右下角展开)。
登录控制台,在控制台首页-运维监控-创建诊断可快速发起诊断。
第一步 选择诊断场景:
进入创建诊断任务页面后,首先根据问题现象选择诊断场景。支持分类筛选和关键词搜索。
注:部分诊断场景暂不支持子账号和STS账号,请以页面提示为准。部分诊断场景需要二次授权确认,请以页面提示为准。
了解已支持的全部诊断场景,请参见诊断支持场景及说明。
第二步 配置诊断参数:
根据页面提示配置诊断参数,不同诊断场景所需参数不同,请以实际页面为准。
第三步 查看诊断报告:
开始诊断后,1-2分钟即可完成诊断。诊断完成可查看全部诊断项及诊断结果,若存在异常,可查看异常详情和修复建议。根据修复建议指引完成问题修复。
点击「有帮助」、「没有帮助」反馈诊断效果,我们将认真听取并持续优化。
RAM子账号发起诊断需要AliyunHealthFullAccess权限,仅查看诊断记录需要AliyunHealthReadOnlyAccess权限,请向管理员申请所需权限后使用。
产品优势
用户视角的健康状态
区别于云厂商通常仅展示可用区的健康状态,云服务诊断展示用户保有资源的健康状态,且细分至每一个实例的每一个小时(部分资源精确到秒)。同时用户可一目了然掌握名下云资源近15天的健康状态。用户视角的健康状态可有效提升问题排查效率。
简单快速的诊断
系统提供多种常见的问题场景诊断能力,且仍在不断丰富中。用户只需对号入座选择诊断场景及选择资源等简单操作即可发起诊断,1-2分钟即可快速生成详细诊断报告,包含每个诊断项结果、异常详情和修复建议。系统还具备智能化诊断能力,如「网站无法访问」诊断,可自动感知用户云资源关系生成资源拓扑图,自动对资源发起诊断。
轻松运维的好帮手
当用户的业务系统出现问题时,通过健康状态快速判断问题排查方向,通过诊断快速排查和修复云资源使用问题,快速恢复业务。