ECS实例及关联资源在什么时间、地点、被谁做了哪些变更,这些操作日志都会被记录下来并存档90天。当您在管理或使用ECS实例时遭遇技术问题或故障,查阅操作记录将有助于快速定位问题,提高故障排除效率。同时操作记录也可用于评估故障影响范围以及责任认定等。
操作记录功能的日志数据由操作审计(ActionTrail)提供,默认保留最近90天的数据。若您有需求保存更长时间段内的操作记录,可以考虑将操作日志投递到您自己的存储服务中,更多详情请参见创建单账号跟踪。
操作步骤
登录ECS管理控制台。
在左侧导航栏,选择 。
在页面左侧顶部,选择目标资源所在的资源组和地域。
选择需要排查异常故障的实例,单击实例ID。
在实例详情页面,单击操作记录页签。
ECS实例的变更:
实例配置变更:调整实例的硬件配置,如CPU核心数、内存大小、磁盘空间等。
实例状态变更:更改实例的状态,如从运行中切换到停止状态。
实例属性变更:修改实例的名称、描述、标签等信息。
实例计费变更:调整实例的计费模式,如从按量付费转变为包年包月。
实例创建或释放:创建:启动新的ECS实例,释放:终止不再需要的ECS实例。
实例启动和关闭:启动使停止状态的实例恢复运行,关闭暂停实例的运行
系统内停止实例 - 节省停机模式:将实例置于节省停机模式,以减少不必要的费用。
ECS关联资源的变更:
创建或删除安全组:创建为实例或实例组建立新的安全规则集合,删除移除不再需要的安全组。
安全组配置修改:调整安全组的规则,以允许或禁止某些类型的网络流量进入或离开实例。
关联安全组变更:更新与实例关联的安全组规则,增强或调整实例的安全保护措施。
关联弹性网卡变更:对连接至实例的弹性网卡进行配置调整,如IP地址分配、子网设置等。
关联磁盘变更:调整与ECS实例相连的云磁盘配置,如扩展磁盘空间或变更磁盘类型。
高:这类操作可能会导致服务中断。例如,停止实例(StopInstance)、重启实例(RebootInstance)等操作。这些操作可能会影响您的业务运行,并且需要您提前做好数据备份和恢复策略。
中:这类操作通常不会导致服务中断,但在某些情况下可能会产生短暂的影响。例如,启动实例(StartInstance)、修改实例配置(ModifyInstanceSpec)等操作。在执行这些操作时,建议您关注实例的状态变化并及时处理可能出现的问题。
低:这类操作一般不会对实例造成任何影响。例如,查询实例详情(DescribeInstances)、查看实例状态(DescribeInstanceStatus)等操作。这些操作主要用于获取实例的相关信息,帮助您更好地管理和监控实例。
在实例的操作记录页面,单击详情以查看实例及其关联资源的详细操作记录,您可以在管控事件结构定义中查阅详细描述。
默认会列出最近7天ECS实例及其相关资源的所有操作记录。
您可以按变更范围和变更影响等级等过滤条件进一步筛查出关心的操作记录,支持的过滤条件如下表所示。
名称 | 描述 |
变更范围 | 影响ECS的操作,主要包括两大类: |
读写类型 | 操作的读写类型,目前仅支持写类型查询。 例如StopInstance操作,停止一台实例。 |
时间范围 | 支持查询过去90天内的变更记录,且起止日期的最大间隔为7天。 |
变更影响等级 | 不同的操作对ECS实例的影响等级不一样。变更影响等级包括: |
变更名称 | 各资源的变更操作名称(即API名称)您可以在API概览中搜索查看对应的API说明。 |
用户名 | 执行变更操作的用户。 |
关联资源ID | 变更操作对应的实例ID和实例名称,用以唯一标识与ECS实例相关联的资源。 |
案例介绍
某公司的IT部门正在使用阿里云的ECS实例来托管其关键业务应用。某天上午,公司的客户服务团队收到了大量关于网站响应非常慢的反馈。IT运维人员立即登录阿里云控制台进行问题排查。
1. 初步检查
IT运维人员首先通过云监控查看发现一台服务器CPU使用率异常,意识到需要查找问题原因,于是利用ECS操作记录和阿里云的操作审计(ActionTrail)来获取最近对ECS实例的所有日志以及操作记录排查问题。
2. 使用ECS操作记录
IT运维人员通过阿里云控制台进入了ECS操作记录页面,查看了过去几天内的所有相关操作记录,发现了一些变更等级高的异常操作。
为了进一步详细定位问题通过查看ECS操作记录详情获取到了操作的详细信息,记录了“何时”、“何地”、“被何人”执行了“何种操作”。
{
"eventId": "1A453C6E-A7D6-58E3-9435-***************",
"eventVersion": 1,
"responseElements": {
"RequestId": "1A453C6E-A7D6-58E3-9435-9********"
},
"eventSource": "ecs-openapi-share.cn-hangzhou-cloudstone.aliyuncs.com",
"requestParameters": {
"SourceRegionId": "cn-hangzhou-cloudstone",
"AcsProduct": "Ecs",
"X-Acs-Public-Access": false,
"InstanceId": "i-gc7********",
"X-Acs-Ingress-Network": "crossdomain",
"AcceptLanguage": "zh-CN",
"ClientPort": 62889,
"RegionId": "cn-nanjing",
"InstanceType": "ecs.g6.large",
"X-Acs-Account-Site-Type": "domestic",
"X-Acs-Client-Request-Host": "ecs-openapi-share.cn-hangzhou-cloudstone.aliyuncs.com"
},
"sourceIpAddress": "124.89.********",
"userAgent": "ecs.console.aliyun.com",
"eventRW": "Write",
"eventType": [
"spec",
"instanceCost"
],
"referencedResources": {
"ACS::ECS::Instance": [
"i-gc77ccwg********"
]
},
"userIdentity": {
"sessionContext": {
"attributes": {
"mfaAuthenticated": "false",
"creationDate": "2024-10-31T05:51:14Z"
}
},
"accountId": "141339********",
"principalId": "14133********",
"type": "root-account",
"userName": "zhangsan"
},
"serviceName": "Ecs",
"additionalEventData": {
"CallerBid": "26842"
},
"apiVersion": "2014-05-26",
"requestId": "1A453C6E-A7D6-********",
"eventTime": "2024-10-31T05:51:14Z",
"isGlobal": false,
"acsRegion": "cn-nanjing",
"eventName": "ModifyInstanceSpec",
"resourceName": "i-gc7********",
"userName": "root",
"originEventType": "ConsoleOperation",
"eventLevel": "high"
}
何时:操作记录显示,配置调整发生在2024年10月31日13点51分14秒。
何地:操作是从公司内部IP为124.89.********地址发起的。
被何人:操作是由开发工程师账户ID141339********的张三执行的。
何种操作:具体执行了ModifyInstanceSpec操作是对ECS实例规格进行了修改,具体涉及到的ECS实例ID为
i-gc77ccwg********
,并且新的实例类型设置为了ecs.g6.large
。
3. 分析操作记录
通过ECS操作记录,IT运维人员了解到这次配置调整是在前一天中午1点进行的。调整后没有立即发现问题,但随着时间推移,用户访问量增加,性能不足的问题逐渐显现。
4. 联系相关人员
IT运维人员联系了负责调整配置的工程师张三,询问具体的调整细节。张三回忆起在调整配置时,可能没有正确评估资源需求的变化,导致配置调整后性能不足。
5. 使用操作审计辅助分析
为了进一步确认和验证,IT运维人员还使用了阿里云的操作审计(ActionTrail)功能。操作审计提供了更详细的日志信息,包括API调用的具体参数和事件ID等。并且通过操作审计事件查询确认了没有对该账号下的其他实例进行修改。
API调用时间:与ECS操作记录一致,为前一天下午1点。
调用者身份:确实是张三的账号。
API调用内容:具体修改了ECS实例的规格参数。
6. 恢复并优化配置
根据ECS操作记录和操作审计提供的信息,IT运维人员决定恢复之前的配置设置,并根据当前的实际负载情况重新评估和调整资源配置。具体步骤如下:
恢复配置:将ECS实例的CPU和内存配额手动恢复到之前的设置。
监控性能:恢复配置后,持续监控ECS实例的性能,确保服务恢复正常。
重新评估:与张三一起重新评估资源需求,并制定一个更合理的资源配置方案。