常见问题

运维管理 容器应用服务常见问题 经典应用服务常见问题 中间件 SOFABoot 常见问题 微服务常见问题 微服务故障排查之 DRM 微服务故障排查之限流 微服务故障排查之 RPC 服务网格-故障排查 消息队列常见问题 任务调度常见问题 分布式链路跟踪...

故障演练

ADP提供基于线下交付经验设计的丰富故障演练场景,对基础设施、底座、中间件的常见故障场景进行覆盖,涵盖了集群级别的大规模故障以及节点、pod级别的资源故障。部分演练场景为破坏性场景(如机器重启、网卡损坏),可能导致环境状态异常、...

功能特性

产品主要功能包括风险管理、日常巡检、故障诊断、应急预案、故障演练等。风险管理 风险管理 是高可用管理平台核心,是风险事件汇集、处置的中枢平台,具体如下。风险事件 风险事件汇集:负责将监控、巡检、诊断产生的风险或告警信息进行...

故障排查与常见问题

本文提供您在使用容器服务ACK时可能遇到的常见异常问题,并为您提供诊断流程、排查思路和解决方案。故障排查索引 集群类型 相关文档 托管版与专有版容器集群ACK 使用OpenAPI诊断工具进行故障排查 Service异常问题排查 Nginx Ingress异常...

什么是SCDN

多级调度:支持多级的调度策略,节点故障不会造成用户服务不可用。多系统联动:和阿里云其他产品形成多系统联动,与安全防御系统、刷新系统、内容管理系统等协调工作,达到各模块的最优性能。流量预测:数据化实时调度,支持节点级别流量...

GTM如何实现异地容灾

概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...

Quick BI v4.3版本说明

支持多种调度方式,包括手动调度,周期调度和动态参数调度。支持任务发布状态管理和运维管理。移动端 移动端图表展示支持栅格布局,一可放置多个图表。支持布局缩放来调整单个组件尺寸和位置。支持布局个性化隐藏Tab内的单个图表。可视化...

历史功能发布记录(2023年)

全部 自助诊断GPU节点问题 ACK调度器支持IP感知调度和拓扑调度等功能 IP感知调度 当Pod调度到某节点上时,由于可用IP不足无法启动,该节点将被标记为缺少IP状态并被拉黑五分钟。IP感知调度可防止大量Pod由于IP不足而导致的启动失败问题。...

任务管理

任务管理就是为多任务环境中的每个任务分配一个上下文(context)(上下文(context)是指当任务被调度执行的所必不可少的一组数据,包括前任务的CPU指令地址(PC指针),当前任务的栈空间,当前任务的CPU寄存器状态等),在任务相继执行...

应用场景

全面消除偶发问题引发的风险 依托于限流、降级、熔断、隔离等能力,可以在出现偶发的流量洪峰和依赖服务出现异常时,有效地限流保护、削峰填谷、隔离故障、降级保护。低成本实现微服务敏捷开发 依托于开发环境隔离能力,可以在不增加物理...

云原生AI套件概述

异构计算集群概述 开启集群GPU监控 共享GPU调度概述 AI任务调度 多种调度策略支持:针对AI分布式训练等典型批量任务类型,ACK调度器扩展Kubernetes原生调度框架,支持实现多种典型批量调度策略,包括Gang Scheduling(Coscheduling)、FIFO...

如何在SchedulerX 2.0平台上托管ElasticJob任务

分布式任务调度SchedulerX 2.0兼容开源ElasticJob任务接口,您无需修改代码,即可将ElasticJob任务在SchedulerX 2.0平台上进行托管。本文介绍如何在SchedulerX 2.0平台上托管ElasticJob任务。背景信息 ElasticJob基于Quartz开发并且依赖...

2022年

企业级分布式批处理方案 1.4.2,2022-03-07 变更类型 功能描述 相关文档 新增 分布式任务调度系统SchedulerX 2.0的日志服务,您不需要修改一代码,只需要增加一个Log4j或Logback的配置,即可在控制台看到每次任务调度(包括分布式任务)...

GTM如何实现同城容灾

概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...

使用负载感知调度

ACK集群Pro版 调度器的负载感知调度功能会根据节点的实际负载情况,将Pod优先调度到负载较低的节点,以实现节点负载均衡,降低节点故障风险。前提条件 已安装ack-koordinator组件,且版本为1.1.1-ack.1及以上。具体操作,请参见 ack-...

GTM实现跨网访问加速与故障切换

概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...

产品功能

通过SchedulerX可以管理定时调度任务、查询任务执行记录和运行日志。本文介绍SchedulerX调度、执行和运维三个方面的功能。定时调度 Crontab 支持Unix Crontab表达式,不支持秒级别调度。更多信息,请参见 Cron。Fixed rate Crontab必须被60...

计算资源

即使其中一个节点发生故障或异常中断,其他节点仍然可以继续执行剩余的子任务,提高任务的容错性和可靠性。任务重复执行 由于各种原因导致计算任务被多次执行的情况,如重复操作、消息重复、调度重复等原因。常见的容错策略如下:去重:...

DDoS高防和CDN或DCDN联动

通过流量调度器的智能调度,业务正常访问期间,流量不经过DDoS高防清洗就近使用加速产品的节点加速,仅在业务被攻击时流量切换到DDoS高防进行清洗,由高防将清洁流量直接转发给源站,保证业务平稳运行。本文介绍如何配置DDoS高防和加速产品...

用户洞察常见问题

本文汇总了用户洞察相关的常见问题。如何使用他人导入的数据进行分析?答:除管理员、数据导入者外,其他成员需要使用数据时,均需要相应的授权。授权单位为标签、AIPL模型、RFM模型,暂时不能以表为单位进行授权。其中,标签来自于已导入...

通过向导模式配置离线同步任务

数据集成提供向导式的开发引导,您无需编写任何代码,通过在界面勾选数据来源与去向,并结合DataWorks调度参数,实现将源端单表或分库分表的全量或增量数据周期性同步至目标数据表。本文为您介绍向导模式配置离线同步任务的常规配置,各...

如何在SchedulerX 2.0平台上托管XXL-JOB任务

阿里巴巴商业化任务调度平台SchedulerX 2.0兼容XXL-JOB任务接口,支持@XxlJob新注解和@JobHandler老注解方式。您无需修改代码,即可以将XXL-JOB任务在SchedulerX 2.0平台上托管。本文介绍在SchedulerX 2.0平台上托管的优势和方法。功能优势...

服务运行

本文介绍使用容器服务ACK涉及的服务授权、访问、调度及资源分配等常见问题。如何部署集群的第一个应用?集群中的应用A如何访问应用B?如何将集群内的各节点资源合理的分配给不同容器组?如何将Pod调度到指定ECS节点?如何获取服务Service的...

产品功能

通过SchedulerX可以管理定时调度任务、查询任务执行记录和运行日志。本文介绍SchedulerX调度、执行和运维三个方面的功能。定时调度 Crontab 支持Unix Crontab表达式,不支持秒级别调度。更多信息,请参见 Cron。Fixed rate Crontab必须被60...

应用场景

服务网格 ASM主要适用于需要对应用服务进行流量管理、安全管理、故障恢复、观测监控以及微服务架构迁移的应用场景。本文介绍ASM的常见应用场景。流量管理 通过ASM,可以轻松实现基于配置的流量管理:将流量管理与基础设施管理分隔开来,并...

ACK对接ECI

ECI能为Kubernetes提供基础的容器Pod运行环境,但业务间的依赖、负载均衡、弹性伸缩、定期调度等能力依然需要Kubernetes来提供。本文为您介绍阿里云容器服务Kubernetes版(简称ACK)如何与ECI对接,使用ECI作为Pod的运行资源。对接方式 ECI...

文档修订记录

若任务需要周期性调度运行,您需定义该任务的调度相关属性,包括调度周期、调度依赖、调度参数等。任务调度属性配置概述 2023年2月更新记录 时间 特性 类别 描述 产品文档 2023.2.28 新增功能 数据治理中心 DataWorks支持您根据业务需要,...

ACK集群概述

使用集群诊断:提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。成本分析:支持可视化集群资源使用量及成本分布,以提升集群资源利用率。安全中心:支持...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

Pod诊断

容器服务平台构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查、...

资源伸缩和系统扩展

不同的应用部署方式需要使用不同的伸缩方案,常见的伸缩方案主要有以下几种:云服务自动扩缩 在阿里云上进行自动伸缩依赖的云服务是 弹性伸缩 ESS(Auto Scaling),是指根据业务需求和策略自动调整计算能力(即实例数量)的服务。...

OSS数据离线同步至MaxCompute

每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。文件路径 填写您要同步的文件路径。当指定单个OSS Object时,OSS Reader暂时只能使用单线程进行数据抽取。当指定...

OSS数据离线同步至MaxCompute

每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。文件路径 填写您要同步的文件路径。当指定单个OSS Object时,OSS Reader暂时只能使用单线程进行数据抽取。当指定...

安装脚本配置说明

安装脚本支持包含bash、python等可以在Linux Shell环境中运行的脚本类型,脚本第一必须加上注解指明运行时调用的命令,例如bash脚本第一行为#!bin/bash。脚本示例 该脚本示例输出集群环境变量、集群元数据、节点角色到/root目录下对应的...

数据风险点监控

DQC提供常用的规则模板,包括 表数较N天前波动率、表空间大小较N天前波动率、字段最大/最小/平均值相比N天前波动率、字段空值/唯一个数 等。DQC的工作流程如下图所示。DQC的检查通过运行SQL任务实现。该SQL任务嵌套在整体任务中,如果...

产品简介

故障诊断 ACS提供一键故障诊断能力,包括Pod、Service、Ingress的诊断。更多信息,请参见 使用集群诊断。安全中心 审计 ACS提供API Server的审计日志功能,可以帮助集群管理人员记录或追溯不同用户的日常操作。更多信息,请参见 使用集群...

产品架构

日常巡检、业务监控、故障诊断发现风险事件,并将其上报至风险管理中心,由风险管理中心进行统一调度,如触发故障诊断、应急预案等。运行总览集中展示整个平台的运行状态、风险情况。部署架构 HAS 部署时,需要依赖以下底层服务:数据库 ...

删除定时调度

本文介绍如何使用控制台或命令工具删除定时调度。前提条件 成功创建定时调度 使用控制台删除定时调度 登录 Serverless工作流控制台。在左侧导航栏,单击 流程。在流程列表中单击目标流程的流程名称。在目标流程的 流程 页面,单击 定时...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 音视频通信 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用