什么是架构感知

应用视图:应用视图页面是通过采集主机进程与网络数据,展示主机上部署的应用的拓扑架构。风险视图:云资源视图与智能顾问(Advisor)风险巡检结果集成,呈现云服务架构的风险分布以及风险趋势。Kubernetes监控视图:Kubernetes视图与事件...

什么是AI分布式训练通信优化库AIACC-ACSpeed

优化方法 ACSpeed引入CPU亲和性机制,将训练进程与CPU核心进行绑定,控制进程与CPU核心的亲和性,消除NUMA效应和调度消耗。优化效果 该方法对某单机8卡机型VGG16模型的性能提升3%。全链路优化 问题分析 模型训练包括计算、通信、参数更新的...

节点详情

每个节点都具有唯一的IP地址,可以在网络中其他节点进行通信通过节点详情功能,您可以查看应用下所有节点的情况,包括节点的基本信息及节点维度的QPS指标、操作系统指标,也可查看节点下接口的流量监控指标。本文介绍如何查看节点详情...

Multi-Master关键技术介绍

在使用过程中,如果您开启了强一致模式,AnalyticDB PostgreSQL版 在Main Master上会默认开启GTM Proxy来代理Main Master上多个Backend进程与GTM Server之间的请求,从而进一步降低GTM Server的压力。分布事务恢复 在很多场景下系统都需要...

ACS Pod实例概述

限制项 说明 推荐替代方案 HostPath 限制挂载本地宿主机文件到容器中 使用emptyDir、云盘或者NAS文件系统 HostNetwork 限制将宿主机端口映射到容器上 使用type=LoadBalancer的负载均衡 HostIPC 限制容器进程和宿主机进程通信 用户不感知...

使用HPL测试集群浮点性能

NB值的选择主要是通过实际测试得出最优值,一般遵循以下规律:NB不能太大或太小,一般小于384。NB×8一定是缓存行的倍数。NB的大小和通信方式、矩阵规模、网络、处理器速度等有关系。一般通过单节点或单CPU测试可以得到几个较好的NB值,但...

Linux实例负载高问题排查和异常处理

sar是Linux系统中较为全面的性能分析工具,可以从多个方面对系统的活动进行监控和报告,包括文件读写情况、系统调用使用情况、串口、CPU效率、内存使用情况、进程活动及IPC(Inter-Process Communication,进程通信)等。安装sar工具 ...

NetACC使用说明

NetACC(Network Accelerator)是一个用户态网络加速库,可以通过LD_PRELOAD的方式加载使用,无需修改应用代码。NetACC利用eRDMA的低时延、高吞吐、内核旁路、协议栈卸载等优势,通过兼容socket接口,实现对现有TCP应用的加速效果。本文为...

日志类别及字段说明

通过记录和分析进程快照日志,您可以了解系统中进程的活动情况、资源占用情况,检测异常进程CPU占用和内存泄露等问题。DNS请求日志 aegis-log-dns-query 记录DNS查询请求的日志,包括服务器发送DNS查询请求的详细信息,例如查询的域名、...

错误码

E39 Enclave CLIEnclave管理进程建立连接失败 Enclave CLI无法Enclave管理进程正常建立连接,可能原因是其他错误导致Enclave创建失败以至于Enclave管理进程停止运行,请查看Enclave CLI是否报告其他错误码,若无其他错误码则请查看报错...

Lemon-duck在多个平台利用多种入侵方式如何一键防御

localgo 通过config、history文件,或通过进程、配置文件等获取用户、端口、rsa密钥等信息,进而尝试批量传播。Window平台 核心PowerShell脚本文件经过三层的混淆,经过三次反混淆后得到可读的PowerShell文件,文件包含了收集失陷主机信息...

资源组管理

CPU_RATE_LIMIT CPU_RATE_LIMIT用于定义在多个资源组竞争CPU资源时的比例,该参数确定了一个资源组可以从空闲资源组获取的CPU资源的最大比例,如果某资源组设置了较高的CPU_RATE_LIMIT值,那么在竞争CPU时,该资源组将获得较多的CPU时间片...

安全告警概述

云安全中心支持实时检测资产中的安全告警事件,覆盖网页防篡改、进程异常、网站后门、异常登录、恶意进程等安全告警类型。通过威胁检测模型,提供全面的安全告警类型检测,帮助您及时发现资产中的安全威胁、实时掌握资产的安全态势。背景...

Hadoop Yarn RPC 0 Day在野利用分析传播手段披露

Hadoop Yarn RPC未授权访问使得攻击者无需认证即可通过RPC通信执行恶意命令。Hadoop作为大数据计算基础组件往往集群化部署,一旦一台主机沦陷,其整个集群都将受到威胁,其对外暴露的端口服务会造成极大威胁。阿里云安全持续对该BOT进行...

Pod异常问题排查

PID压力:根据自身业务情况,调整Pod的资源配置,具体操作,请参见 进程ID约束预留。Pod OOM异常问题处理 问题原因 当集群中的容器使用超过其限制的内存,容器可能会被终止,触发OOM(Out Of Memory)事件,导致容器异常退出。关于OOM...

共享内存通信(SMC)常见问题

如果您在Alibaba Cloud Linux 3系统中启用了共享内存通信SMC(Shared Memory Communication),且使用过程中遇到无法正常通信、部分端口不可用、对比TCP没有应用性能提升等问题,可以参考本文提供的方案进行排查并解决。启用SMC后应用性能...

使用AIACC-Training TensorFlow版

如何快速判断是否是梯度通信带来的性能瓶颈 您可以将适配代码中的 DistributedOptimizer(opt)参数注释掉,此时,将不会产生梯度通信,您即可进一步排查数据IO、CPU预处理等可能造成性能瓶颈的原因。对数据集做shard的注意事项 由于AIACC-...

调优集群性能

云原生数据仓库 AnalyticDB MySQL 版 的监控信息功能提供了丰富的监控指标,您可以通过集群的各项监控指标,掌握集群的性能和运行状况。当您发现监控指标存在异常时,可以参考本文排查出现异常的原因。查看集群监控指标的方法,请参见 查看...

防御挖矿程序最佳实践

云防火墙通过对云上进出网络的恶意流量进行实时检测阻断,可以防御挖矿蠕虫。本文以云上环境为例,从挖矿蠕虫的防御、检测和入侵后如何迅速止血三方面来介绍如何结合阿里云云防火墙和云安全中心全方位抵御挖矿蠕虫。限制条件 云防火墙...

共享内存通信(SMC)使用说明

Alibaba Cloud Linux 3提供的共享内存通信SMC(Shared Memory Communication)是一种兼容socket层、使用共享内存技术实现的高性能内核网络协议栈。根据共享内存技术的不同,SMC又可以细分为基于Internal Shared Memory(ISM)技术的SMC ...

共享内存通信(SMC)使用说明

Alibaba Cloud Linux 3提供的共享内存通信SMC(Shared Memory Communication)是一种兼容socket层、使用共享内存技术实现的高性能内核网络协议栈。根据共享内存技术的不同,SMC又可以细分为基于Internal Shared Memory(ISM)技术的SMC ...

基本概念

本文介绍 SAE 产品相关的专有名词基本概念。基本概念总览 分类 资源 不同概念 相同概念 命名空间 应用 微服务应用 应用配置管理 应用实例、应用健康检查、启动命令 Web应用 应用版本、CPU分配策略、单实例并发请求数、请求调度策略 ...

使用ACK Net Exporter定位网络问题

背景信息 ACK Net Exporter通过守护进程Pod的方式运行在节点上,借助eBPF技术,采集节点的信息并聚合到具体的Pod中,提供标准化的接口,实现对网络高阶信息的观测。ACK Net Exporter的核心架构如下图所示。安装配置ACK Net Exporter组件 ...

指标说明

nginx_ingress_controller_success-process_resident_memory_bytes 即RSS(Resident Set Size),指的是常驻内存集,是进程实际使用的内存,他不包括分配但未使用的内存,也不包括换出的内存页面,但包含共享内存。process_open_fds 通过...

指标说明

nginx_ingress_controller_success-process_resident_memory_bytes 即RSS(Resident Set Size),指的是常驻内存集,是进程实际使用的内存,他不包括分配但未使用的内存,也不包括换出的内存页面,但包含共享内存。process_open_fds 通过...

使用AIACC-Training MXNet版

AIACC-Training通过重载KVStore实现了对MXNet分布式训练的支持,在API上原生KVStore基本兼容,使用AIACC-Training后,您只需要对模型代码中的ctx设定稍作修改,将单进程绑定至单张GPU卡上即可。以如下代码片段为例,使用Perseus KVStore...

Enclave CLI子命令说明

用法 enclave-cli run-enclave \-cpu-count<vcpu-count>\-cpu-ids<list-of-vcpu-ids>\-memory<amount-of-memory-in-MiB>\-eif-path<enclave-image-file-path>\[-enclave-cid]\[-debug-mode]\[-config]该子命令的JSON配置文件格式如下:{...

资源组

资源组的基本限制维度是进程,由于 PolarDB PostgreSQL版(兼容Oracle)的一个会话对应一个进程,同时一个会话只能有一个用户登录到一个数据库,因此,进程、用户、数据库是一个进程的基本元素。允许指定任意进程、用户、数据库到指定的...

资源组

资源组的基本限制维度是进程,由于 PolarDB PostgreSQL版(兼容Oracle)的一个会话对应一个进程,同时一个会话只能有一个用户登录到一个数据库,因此,进程、用户、数据库是一个进程的基本元素。允许指定任意进程、用户、数据库到指定的...

应用视图

应用视图页面是通过采集主机进程与网络数据,来展示主机部署应用的拓扑架构。您可以通过筛选进程类型,查看进程的拓扑图和详细信息。本文介绍如何在应用视图中查看进程。操作步骤 登录 AHAS控制台,在左侧导航栏选择 故障演练>架构感知。在...

为什么CPU负载高?

问题现象 CPU使用率100%CPU使用率高 负载(Load)高 问题原因 CPU使用率高或者负载高的原因程序运行状态有关,包括启动时运行时。解决方案 场景一:启动时CPU使用率高/负载高 部分语言(例如Java)在刚启动时,存在二次编译的过程。...

Shared Server

默认为2,最大为CPU核数,建议配置与CPU核心数相同。重启生效。polar_enable_shared_server 是否开启Shared Server功能,默认关闭。取值如下:on:开启Shared Server功能。off:关闭Shared Server功能。polar_ss_backend_max_count 后端...

如何使用Prometheus监控Windows

指标名称 指标级别 指标来源 指标说明 进程CPU占用时间 Major WMI(PercentPrivilegedTime/PercentUserTime)该指标可以直观体现进程占用CPU情况,因此您需要重点关注耗用CPU高或突变的进程异动。进程句柄数 Recommend WMI(HandleCount)...

如何使用Prometheus监控Windows

指标名称 指标级别 指标来源 指标说明 进程CPU占用时间 Major WMI(PercentPrivilegedTime/PercentUserTime)该指标可以直观体现进程占用CPU情况,因此您需要重点关注耗用CPU高或突变的进程异动。进程句柄数 Recommend WMI(HandleCount)...

操作系统监控

计数(Host.process.number)先调用OpenProcess打开需要查询的进程,再调用NTDLL中的NtQueryInformationProcess函数获得进程RTL_USER_PROCESS_PARAMETERS的参数信息,最后通过ReadProcessMemory函数获得进程cmdline,从而获得进程args和...

自适应扫描

这种模式通过QC进程与PX Worker进程之间特定的RPC通信机制,由QC进程负责告知每个PX Worker进程可以执行的扫描任务,从而消除计算倾斜的问题。术语 QC(Query Coordinator):发起ePQ并行查询的进程角色。PX Worker:参与ePQ跨节点并行查询的...

Windows实例中带宽使用率较高问题的排查及解决方法

步骤二:分析处理 判断影响CPU使用率过高的进程属于正常进程或是异常进程,并按照下述相应步骤处理。可能原因 具体操作 正常进程 一般情况下,当频繁访问业务,或由于Windows自身服务(更新服务等)都可能会占用较高网络流量和CPU。说明 ...

系统类故障排查

概述 本文主要介绍使用阿里云服务器ECS时的系统类故障排查,包含CPU、磁盘I/O、内存、硬盘、带宽资源占用异常的问题排查定位。详细信息 说明 阿里云提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,...

概述

接入方案 将MCU与通信模组相连,MCU与通信模组之间通过AT指令进行连接和通信。在通信模组上,使用C语言设备端Link SDK实现物联网平台的连接和通信。准备软硬件 本示例中,使用了如下MCU、通信模组开发板和软件开发环境:软硬件 准备说明 ...

Linux实例系统总体负载的查询及分析

检查服务器进程与服务否占用过多内存,或者内存没有正常释放,导致出现内存溢出,系统宕机。检查/var/spool/cron 等系统配置中是否有cron(计划任务)在对应时间段内执行。检查Web服务器的参数是否超过了服务器的性能,比如最大连接数过...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
音视频通信 物联网无线连接服务 云解析DNS 边缘网络加速 短信服务 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用