Transaction Table2.0概述

现状分析 当前典型的数据处理业务场景中,对于时效性要求低的大规模数据全量批处理的单一场景,直接使用MaxCompute足以很好的满足业务需求,对于时效性要求很高的秒级实时数据处理或者流处理,则需要使用实时系统或流系统来满足需求。...

事件告警概览

故障排查:通过审计日志和告警来分析系统故障或性能问题的原因。功能特性 实时检测事件:当您设置告警规则后,操作审计将实时检测云上异常事件,快速发现风险。支持设置告警规则:操作审计内置关于账号安全、权限管理、资源管理等多条告警...

设计方案

监控大屏:监控大屏是指将所有系统的运行情况以图形化的方式展示在屏幕上,以便实时监控系统健康状况。在发生故障时,监控大屏可以快速反应故障情况,并提供相关数据,为故障排查及处理提供依据。风险预测:风险预测是指在发生故障前,通过...

监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...

读写访问文件类问题

当您访问文件系统中的文件时,文件系统中的文件会受到某些限制影响,导致文件操作错误、挂载点无响应或访问无响应等。您可以在本文中查找一些常见文件操作错误、文件属主、数据不同步或访问无响应的解决方案。交叉挂载兼容性问题 Linux挂载...

监控指标说明

该指标协助您进行作业诊断,排查作业Task级别的故障原因。次数 TM GC Time 每次TM GC时间。长时间GC会导致占用过大内存空间,从而影响作业性能。该指标协助您进行作业诊断,排查作业级别的故障原因。毫秒(ms)TM ClassLoader/...

性能监控最佳实践

提高故障排查效率:当系统或应用出现故障时,传统的性能监控方案通常需要IT运维人员手动分析监控数据来确定故障原因,这样会浪费大量的时间和精力。而一体化性能监控能够对多种关联的监控数据进行自动分析和处理,帮助IT运维人员快速定位...

围绕混沌工程的平台实践

AHAS Chaos提供了全局监控配置,可以帮助您在演练期间实时监测系统状态,及时处理预期之外的情况。AHAS Chaos除了提供一些基础的系统指标如CPU、内存、网络、磁盘之外,还集成了阿里云的ARMS,如果您的应用已经接入ARMS就可以在AHAS Chaos...

什么是阿里云实时计算Flink版

产品架构 产品优势 阿里云实时计算Flink版作为企业级高性能Serverless实时大数据处理系统,集成Apache Flink内核,100%兼容Apache Flink,并提供丰富的企业级增值功能。在成本上,基于Serverless的服务支持作业弹性扩缩容,只需增加计算...

光模块故障

本文介绍光模块发生故障原因处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

网站耗资源(客户程序故障)常见问题

为了保证您的站点能够安全、稳定地运行,阿里云的监控系统实时关注您的站点运行状态。当您的站点出现因耗资源导致运行速度下降或服务器性能降低时,由于普通版共享云虚拟主机是多个站点共享同一台云虚拟主机,容易出现耗资源问题,建议您...

管理集群

主机故障处理策略 设置主机故障系统处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

管理集群

主机故障处理策略 设置主机故障系统处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

设备和交换机之间的链路故障

本文介绍SAG-1000设备发生设备和交换机之间链路故障原因处理方法。问题现象 设备和交换机接口之间ping不通。设备的Web端口配置页,端口前的状态灯为红色。动态路由OSPF接入时,Web端口配置页,端口前的状态灯为红色。设备的Web状态查询...

灾备方案

Tair 容灾架构演进 当 Tair 实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。Tair 提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Tair 容灾架构演进 灾备方案 灾备级别 ...

诊断项与诊断结果说明

系统防火墙状态检查 检查系统防火墙是否打开。检查该实例的防火墙。如果实例开启了防火墙,并设置了屏蔽外界访问的规则,可能会导致无法远程连接实例。开启和关闭防火墙的方法,请参见 开启或关闭Linux实例中的系统防火墙 ...

灾备方案介绍

云数据库Redis容灾架构演进 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Redis容灾架构...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

ECS容灾常见问题

SuSE Linux Enterprise Server 12.1由于系统本身的原因导致在VMware环境下存在重启后黑屏的问题,出现此类问题与ECS容灾服务无关。Alibaba Cloud Linux 2.1903 LTS 64位 目前支持Alibaba Cloud Linux 2.1903 LTS 64位如下的内核版本:4.19....

ECS容灾常见问题

SuSE Linux Enterprise Server 12.1由于系统本身的原因导致在VMware环境下存在重启后黑屏的问题,出现此类问题与ECS容灾服务无关。Alibaba Cloud Linux 2.1903 LTS 64位 目前支持Alibaba Cloud Linux 2.1903 LTS 64位如下的内核版本:4.19....

附录:SOFAStack 产品目录

只要保证消息格式不变,消息的发送方和接收方并不需要直接连接,任何一方的系统故障都不会对其他应用产生影响。分布式事务的数据一致性 应用解耦后还需要确保数据的最终一致性,利用消息队列事务消息和消息的可靠传递机制,可以在实现系统...

概览

实时计算Flink版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica)是阿里云基于Apache Flink构建的企业级高性能的实时大数据处理系统。Hologres与Flink深度连通,支持实时写入Flink的数据,可以实时查询写入的...

耗资源用户处理流程

为了保证您的站点能够安全、稳定的运行,阿里云的监控系统实时关注您的站点运行状态。当您的站点出现因过度消耗资源导致运行速度下降或严重影响服务器性能时,系统会根据影响程度采取不同的处理方式以保证网站正常运行。耗资源即程序异常...

网络资源

网络闪断故障可能由多种原因引起,如网络设备故障、电力波动、通信线路故障等。网络闪断会导致数据传输中断,影响系统和应用程序之间的数据传输,频繁的网络闪断可能导致系统或应用程序无法正常运行。常使用的容错策略如下:设备冗余:使用...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

云盘异步复制容灾常见问题

系统侵入性 是 否 复制实现 通过在被保护实例上安装Agent嵌入OS,实时复制磁盘上写入的数据并发送到网关。网关将数据传输中转站OSS进行存储,最终写入容灾站点磁盘。通过块存储的云盘异步复制、快照等机制实现数据复制。恢复实现 支持多...

AIOps 解决方案专家服务内容说明

调研的服务范围包含:基础资源调研、业务现状调研、应用系统调研《调研报告》2 智能故障发现方案设计 基于业务数据、资源组维度建立业务组单元,将业务组单元指标通过智能AI算法进行实时分析,帮助企业快速发现故障,列出可疑根因事件,并...

大数据实时计算性能调优服务

从客情来看,实时计算性能调优需求迫切,比如国家电网用采信息数据量大,及时性高,业务逻辑复杂,急切需要搭建实时数仓,但缺少实时计算的落地经验,急切需要实时计算服务人员协助客户搭建实时任务,完善实时数仓。从客户价值来看,从实际...

自动或手动主备切换

当主实例发生故障或不可用时(例如操作系统错误、硬件故障等),系统会自动触发主备切换,主实例和备实例将进行互换,切换后实例地址保持不变,应用程序会自动连接到新的主实例(原备实例),从而保障业务的连续性和高可用性。此外,您还...

存储资源

磁盘性能下降,读写速度变慢,任务执行时间增加,系统实时性降低,当磁盘IO负载过大无法承受时,可能导致磁盘故障系统崩溃或数据丢失。常见的容错策略如下:数据缓存:将数据暂时存储在内存中,减少对磁盘IO的频繁访问。可以利用内存...

文档修订记录

新说明 为了能够快速恢复系统故障,Hologres提供了单实例快速恢复的机制。本文为您介绍单实例快速恢复的触发条件和行为。单实例快速恢复 2023.07.05 新增产品形态。新说明 计算抵扣包是实时数仓Hologres推出的计算资源抵扣包,用于抵扣实例...

归档存储服务等级协议

阿里云将对不可用时间进行赔偿,但不包括以下原因所导致的服务不可用时间:(1)阿里云预先通知用户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)...

Tair选型指南

跨地域容灾方案★由多个子实例构成全球分布式实例,所有子实例通过同步通道保持实时数据同步,由通道管理器负责子实例的健康状态监测、主从切换等等异常事件的处理,适用于异地灾备、异地多活、应用就近访问、分摊负载等场景。更多介绍请...

Windows系统实例的宕机问题排查

问题原因 处理器响应时钟中断超时。更多信息,请参见 Bug check 0x101:CLOCK_WATCHDOG_TIMEOUT。解决方案 请 提交工单 联系阿里云技术支持。实例宕机并产生错误码00000133 问题描述 宕机产生错误码00000133。问题原因 系统DPC(Deferred ...

消息发送重试和流控机制

处理建议 如何避免触发消息流控:触发限流的根本原因系统容量或水位过高,您可以利用可观测性功能监控系统水位容量等,保证底层资源充足,避免触发流控机制。突发消息流控处理:如果因为突发原因触发消息流控,且客户端内置的重试流程...

挂载访问FAQ

目前仅支持Linux操作系统挂载NFS文件系统,Windows操作系统挂载SMB文件系统、Windows操作系统挂载NFS文件系统及Linux操作系统挂载SMB文件系统场景,请您登录ECS实例执行命令挂载。更多信息,请参见 Windows系统挂载SMB文件系统、Windows...

云数据库Redis版产品选型必读

跨地域容灾方案★由多个子实例构成全球分布式实例,所有子实例通过同步通道保持实时数据同步,由通道管理器负责子实例的健康状态监测、主从切换等等异常事件的处理,适用于异地灾备、异地多活、应用就近访问、分摊负载等场景。更多介绍,请...

东软案例

客户感言 利用阿里云新一代 云原生多模数据库 Lindorm“灵动”引擎驱动的政府、企业数字信息系统智能运维解决方案,东软做到了实时、海量、异构监控数据一站式存储,实现指标、日志、代码链路和网络包等异构数据融合分析,高可靠数据保障和...

如何使用Prometheus监控Windows

CPU指标 CPU作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元,您可以关注以下主要指标。指标名称 指标级别 指标来源 指标说明 CPU使用率(%)Critical WMI(PercentProcessorTime)若长时间CPU使用率达到100%,表示...

发现并处理大Key和热Key

在使用 云原生内存数据库Tair 的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
实时计算 Flink版 云安全中心 对象存储 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用