CPU拓扑感知调度

ACK基于新版的Scheduling framework实现CPU拓扑感知调度,针对CPU敏感型的工作负载提供更好的性能。本文介绍如何使用CPU拓扑感知调度。前提条件 您已创建ACK Pro版集群。具体步骤,请参见 创建ACK Pro版集群。重要 目前CPU拓扑感知调度仅...

CPU拓扑感知调度

ACK基于新版的Scheduling framework实现CPU拓扑感知调度,针对CPU敏感型的工作负载提供更好的性能。本文介绍如何使用CPU拓扑感知调度。原理介绍 Kubernetes的节点会运行多个Pod,其中部分Pod属于CPU密集型工作负载。在这种情况下,Pod之间...

查看和修改CPU拓扑结构

背景信息 什么是CPU 拓扑 CPU拓扑是多核处理器中物理核心与逻辑核心之间的连接方式。通常情况下,每个物理核心都包含一个或多个逻辑核心,而物理核心直接通过总线或互联网络连接,拓扑结构的不同将直接影响多核处理器的性能和能效。目前...

CPU性能优化场景概述

场景 方案选择 性能 ACK节点运行在开启NUMA的弹性裸金属服务器 计算密集性负载 在线业务负载 数据库类型 CPU拓扑感知调度 NUMA负载感知调度 稳定的平均响应时RT(Response Time)。最小化CPU限流。CPU使用率提升。ACK节点运行在弹性裸金属...

通过ack-co-scheduler组件实现协同调度

与原生的Kubernetes调度器相比,容器服务ACK的调度器扩展出更多其他功能,例如Gang Scheduling、CPU拓扑感知、ECI弹性调度等。本文介绍通过为注册集群安装ack-co-scheduler组件的方式,以实现在您的本地集群中使用阿里云容器服务ACK的调度...

AI负载调度

共享GPU调度专业版 GPU/CPU拓扑感知调度 调度器基于节点异构资源的拓扑信息,如GPU卡之间的NVLink、PcieSwitch等通信方式、CPU的NUMA拓扑结构等,在集群维度进行最佳的调度选择,为工作负载提供更好的性能。CPU拓扑感知调度 GPU拓扑感知...

调度概述

共享GPU调度概述 共享GPU调度专业版 GPU/CPU拓扑感知调度 调度器基于节点异构资源的拓扑信息,如GPU卡之间的NVLink、PcleSwitch等通信方式、CPU的NUMA拓扑结构等,在集群维度进行最佳的调度选择,为工作负载提供更好的性能。CPU拓扑感知...

ModifyInstanceAttribute-修改一台实例的部分信息

取值范围:ContinuousCoreToHTMapping:当选择 ContinuousCoreToHTMapping 时,实例的 Cpu 拓扑中,实例的同一个 Core 的 HT 是连续的。DiscreteCoreToHTMapping:当选择 DiscreteCoreToHTMapping 时,实例的同一个 Core 的 HT 是离散的。...

动态修改Pod资源参数

对于正式的常规性运维操作,强烈建议您使用 CPU Burst性能优化策略、CPU拓扑感知调度、资源画像 等功能。修改内存限制参数 您可以通过Cgroup动态修改容器的内存限制,具体操作步骤如下。说明 修改内存限制参数的功能仅支持K8s 1.22及更早...

动态修改Pod资源参数

对于正式的常规性运维操作,强烈建议您使用 CPU Burst性能优化策略、CPU拓扑感知调度、资源画像 等功能。修改内存限制参数 您可以通过Cgroup动态修改容器的内存限制,具体操作步骤如下。说明 修改内存限制参数的功能仅支持K8s 1.22及更早...

ACK集群Pro版概述

可以升级到Pro版)SLA 不涉及 99.95%(支持赔付)99.9%(不支持赔付)API Server 自定义参数设置 可用性监控 etcd 高频冷热备机制,异地容灾 可观测性监控指标 Kube Scheduler Gang scheduling调度策略 CPU拓扑感知调度 GPU拓扑感知调度 ...

kube-scheduler

CPU拓扑感知调度 避免重复给单个Pod分配相同CPU核,从而导致Pod在节点上启动失败。ECI弹性调度 修复了使用 alibabacloud.com/burst-resource 标签指定策略时,若标签的value不为eci或eci_only,依然会调度到ECI上的问题。v1.28.3-aliyun-6....

注册集群概述

AI和大数据赋能:针对主流服务器的CPU拓扑调度和NUMA感知提升计算效率30%~40%;GPU共享调度,资源利用率提高300%;异构资源弹性伸缩,提供云上云下统一的弹性调度管理;混合云分布式缓存Fluid统一云下云上存储访问,接近访问提升效率10倍和...

多NUMA机型的容器内存就近访问加速

对基于CPU拓扑感知调度等功能实现绑核的应用,在确保数据安全的前提下尽可能地将远端内存迁移至所在NUMA,且迁移过程中无需中断业务。使用场景 内存就近访问加速功能的使用场景如下。工作负载为内存密集型,例如大型内存数据库Redis。运行...

ack-koordinator(ack-slo-manager)

类型 功能文档 与Koordinator开源版本一致 CPU调度 CPU拓扑感知调度 否 CPU Burst性能优化策略 是 负载感知调度 负载感知调度 是 热点打散重调度 是 精细化调度 资源画像 否 动态资源超卖 是 弹性资源限制 是 容器CPU QoS 是 容器内存QoS ...

使用Prometheus配置报警规则的最佳实践

如果你的集群节点使用多核机型的服务器,推荐使用CPU拓扑感知调度,最大化利用碎片化CPU。更多信息,请参见 CPU拓扑感知调度。工作负载异常 Deployment可用副本状态异常 Critical kube_deployment_spec_replicas{}!kube_deployment_status_...

历史功能发布记录(2021年)

全部 自定义Kubernetes授权策略 集群拓扑功能集成ARMS Kubernetes监控能力 容器服务ACK增强了集群拓扑功能,集成了ARMS Kubernetes监控中的集群网络拓扑功能,支持查看集群下的Service和Workload的网络拓扑,以及各资源与云服务之间的网络...

ACK One概述

智能调度 利用容器服务ACK调度器,实现Gang Scheduling、CPU拓扑感知、ECI弹性调度等高阶调度能力。利用分布式缓存ACK Fluid应对存算分离场景,提升访问效率和减少带宽占用。注册集群相关文档,请参见 注册集群概述。多集群舰队 当您同时...

资源画像

注意,若工作负载使用了CPU拓扑感知调度,CPU资源的限制需要配置为整数。配置完成后,单击 提交,将执行资源规格更新操作并自动跳转到工作负载详情页。资源规格更新后,控制器会对工作负载进行滚动更新并重新创建Pod。通过命令行使用资源...

(停止维护)ACK发布Kubernetes 1.22版本说明

当资源使用紧张时(例如突发性的大资源量申请),CPU资源可以通过分配限速来提高资源的可用性,但无法实现内存资源的分配限速。为了支持内存资源的分配限速,Linux内核社区在cgroups v2中对相关接口进行了优化调整。ACK默认开启内存服务...

云原生AI套件开发者使用指南

若希望取得最佳的拓扑感知效果,可以选择两台v100机型进行实验。已安装云原生AI套件并部署所有组件。具体操作,请参见 安装云原生AI套件。可访问AI运维控制台。关于如何配置AI运维控制台,请参见 访问AI运维控制台。可访问AI开发控制台。...

监控指标说明

您可以在目标作业的作业部署详情页面,单击 状态总览 页签,在 BackPressure 页面先定位有问题的Vertex拓扑,再到 Thread Dump 页面分析堆栈定位真正的瓶颈点。毫秒(ms)Kafka RocketMQ SLS DataHub Postgres CDC Hologres(Binlog Source...

云原生AI套件管理员运维指南

调度 选择是否开启 调度组件(批量任务调度、GPU共享、GPU拓扑感知、NPU调度)功能。您也可以单击 高级配置,自定义参数配置。交互方式 Arena命名行(必选):默认必选组件。您也可以单击 高级配置,自定义参数配置。控制台:选择部署PAI轻...

容器资产全景

开启网络拓扑功能会消耗少量的CPU资源,如果您无需查看集群的网络拓扑,您可以单击 容器资产全景 页签右上角 图标,并单击 图标关闭所有集群的网络拓扑。关闭网络拓扑后,如果您需要再次查看所有集群的网络拓扑,可以重新打开该开关。说明 ...

网络拓扑概述

网络拓扑图可以清晰地展示网络中资源的连接和关系,可视化网络结构,帮助您快速了解您的云上网络架构,进行网络配置验证、网络问题排查和云网络资源统一运维。背景信息 当前阿里云上网络资源类型丰富,功能形态各异,大量网络资源分散在...

使用专有网络拓扑

专有网络拓扑包括资源拓扑与路由拓扑,为您展示 专有网络 VPC(Virtual Private Cloud)下各类资源之间的关联关系与路由转发路径,并支持查看相关网络实例的基本信息,进行实例诊断,路径分析等操作。资源拓扑 资源拓扑通过拓扑组网,展示...

开启托管模式的网格拓扑

当您需要观测多个集群的流量拓扑,可以使用托管模式的网格拓扑功能。托管模式将网格拓扑服务以弹性容器实例(ECI)的方式部署,提高服务可靠性和易用性。整个网格实例只需要部署一个网格拓扑服务,减少配置的工作量。前提条件 已创建...

开启网格拓扑提高可观测性

当您需要可视化监控服务间的交互时,可以开启网格拓扑功能。通过网格拓扑图,您可以实时监测服务的健康状态,分析服务间的延迟和通信问题,了解流量在服务间的分布和流转,以便您快速发现和解决问题,确保服务的可靠性和高性能水平。功能...

开启网格拓扑提高可观测性

当您需要可视化监控服务间的交互时,可以开启网格拓扑功能。通过网格拓扑图,您可以实时监测服务的健康状态,分析服务间的延迟和通信问题,了解流量在服务间的分布和流转,以便您快速发现和解决问题,确保服务的可靠性和高性能水平。功能...

拓扑

本文介绍拓扑图的相关配置。简介 拓扑图是一种全局系统级别的观测视图,用于直观地描述模块或应用之间的依赖关系以及总体概况信息。日志服务采集到拓扑数据后,会解析数据并将其结构化,拓扑数据样例如下图所示。您可以通过 child、parent ...

管理拓扑任务

您可以在任务列表中查看已创建的拓扑任务,包括拓扑名称、调度类型、创建时间等信息。查看调度记录 在拓扑任务列表,单击目标任务名称。单击 调度记录 页签。您可以查看以下内容:请求 ID:用于故障排查。触发状态:包括执行成功、执行失败...

查看应用的网格拓扑

当您需要可视化监控应用间的交互时,可以开启网格拓扑功能。通过网格拓扑图,您可以实时监测应用的健康状态,分析服务间的延迟和通信问题,了解流量在应用间的分布和流转,以便您快速发现和解决问题,确保应用的可靠性和高性能水平。前提...

拓扑任务版本

您可以通过编辑拓扑任务的版本,以修改拓扑任务。拓扑版本生命周期 生命周期示意图:状态 说明 可用操作 已发布 当前正在使用的拓扑版本。处于“编辑中”或“已归档”状态的版本被发布后,会变更为“已发布”状态。只能有一个版本能处于...

查看应用拓扑

应用拓扑 页面分别以列表和拓扑图的形式展示当前监控的所有业务系统及其相关的性能指标数据。默认情况下,系统以拓扑图的形式展示。拓扑概述 拓扑是对应用间调用关系和依赖关系的可视化展示。链路拓扑图中,每个图标元素代表一个节点,即...

使用阿里云账号登录ASM网格拓扑

ASM自1.16.4.5版本起,网格拓扑支持与阿里云RAM访问控制进行对接。您可以使用主账号或阿里云RAM用户直接登录ASM网格拓扑。本文介绍如何使用阿里云账号登录ASM网格拓扑。前提条件 已创建ASM实例,且版本为1.16.4.5及以上。具体操作,请参见 ...

使用阿里云账号登录ASM网格拓扑

ASM自1.16.4.5版本起,网格拓扑支持与阿里云RAM访问控制进行对接。您可以使用主账号或阿里云RAM用户直接登录ASM网格拓扑。本文介绍如何使用阿里云账号登录ASM网格拓扑。前提条件 已创建ASM实例,且版本为1.16.4.5及以上。具体操作,请参见 ...

使用负载均衡拓扑

负载均衡拓扑为您展示负载均衡中具备绑定关系的监听和后端服务器组的组网关系,并支持查看相关网络实例的基本信息,进行实例诊断等操作,帮助您查看流量分发是否符合预期。使用限制 后端服务器组必须绑定监听,若后端服务器组未绑定监听,...

服务拓扑

服务拓扑图 在服务拓扑图中,您可以获取以下信息:应用服务的名称及版本号 应用服务间的调用关系 服务的请求量(RPS)服务的响应时间(ms)服务的错误率(%)在服务拓扑图中,单击一个节点图标,即可查看该节点的详细信息。节点上下游相关...

触发拓扑任务

拓扑任务配置完成后,您可以通过自动触发、手动触发、BETA 触发三种方式触发任务。自动触发 CRON 表达式触发:拓扑任务的调度类型为 CRON 表达式触发时,会根据 CRON 表达式设置的时间周期自动触发任务。事件触发:拓扑任务的调度类型为...

概述

拓扑任务是一种特殊的任务,是通过事件触发的任务集合。拓扑任务中的任务执行流程均起始于开始节点,终止与结束节点,任务的执行流程形成一张有向无环图。拓扑任务本身可以通过 CRON 表达式或者事件触发,但其中的任务节点必须符合以下要求...
共有147条 < 1 2 3 4 ... 147 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
可观测链路 OpenTelemetry 版 高速通道 弹性公网IP 短信服务 人工智能平台 PAI 金融分布式架构
新人特惠 爆款特惠 最新活动 免费试用