词汇表

通过靠近客户侧的去中心化小型云计算平台能力,实现了广覆盖、低时延、大带宽的技术特点,为用户提供安全、稳定、可靠的全球内容分发加速服务和边缘计算服务,帮助客户解决在音视频、游戏、终端虚拟化等应用场景中遇到的算力网络、部署和...

计量计费

模型专属服务使用的算力单元必须是模型 基础算力单元 的整数倍,例如 qwen-turbo 模型的基础算力单元为 2,使用了 qwen-turbo 模型的专属服务的算力单元必须是 2 的倍数。模型列表 以下为专属服务支持的预置模型列表:模型名称 基础算力...

计量计费

模型专属服务使用的算力单元必须是模型 基础算力单元 的整数倍,例如 qwen-turbo 模型的基础算力单元为 2,使用了 qwen-turbo 模型的专属服务的算力单元必须是 2 的倍数。模型列表 以下为专属服务支持的预置模型列表:模型名称 基础算力...

灵骏智多租(Serverless)节点自愈v1.0

快速发现、识别和替换异常算力节点,保障大模型训练...优化内容 PAI灵骏智算服务,上线AI助手,结合PAI-AIMaster、PAI-EasyCKPT 能力,快速识别GPU、硬件、驱动等算力节点故障,全自动化处理,实现算力节点用户无感自愈,保障算力资源高可用。

修改 Serverless 算力配置

本页面为您介绍修改 Serverless 算力的操作步骤。背景信息 创建 Serverless 实例后,您可以根据业务需要设置单节点的伸缩上下限。配置完成后,Serverless 实例会根据业务负载的变化,在您设定的伸缩区间内进行动态调整,以实现资源的有效...

通过共享GPU调度实现算力分配

ACK集群Pro版 支持为应用申请GPU显存和算力,能够帮助您更精细化的使用GPU的显存和算力资源。本文介绍如何通过共享GPU调度实现算力分配。前提条件 已创建 ACK集群Pro版,且集群版本为v1.20及以上。具体步骤,请参见 创建Kubernetes托管版...

分布式训练DLC 算力健康检测发布

新增功能/规格 算力健康检测(Sanity Check)功能,旨在对分布式训练任务的算力资源健康度与性能进行检查。在创建DLC训练任务时可以开启该功能,健康检测会对参与训练的资源进行全面检测,自动隔离故障节点,并触发后台自动化运维流程,...

云产品集成概述

云产品也可以复用您在容器计算服务ACS内已购买的容器算力资源。本文介绍如何开通集成的云产品,并管理云产品使用ACS资源的配置。功能介绍 ACS通过Kubernetes界面提供容器算力资源。这些资源可以同时支持您的容器应用负载和云产品的负载。...

SanityCheck:算力健康检测

本文为您介绍如何使用 DLC 提供的算力健康检测能力。功能介绍 在执行DLC任务时,可能会遇到以下问题:在任务花费一定时间加载模型Checkpoint或其他初始化操作后,由于申请的资源存在故障,无法顺利开始训练,需要调查定位故障问题并重新...

算力计费

阿里云边缘计算服务ENS的边缘算力计费方式默认为后付费方式。通过本文,您可以了解阿里云ENS边缘算力的计费详情。后付费 支持按月或按日计费模式。说明 若您想切换计费方式,请联系商务经理进行咨询。边缘算力计费由边缘虚核、边缘内存和...

配置共享GPU调度cGPU算力调度策略

本文介绍通过配置共享GPU算力分配策略,实现不同效果的算力分配。关于cGPU的更多信息,请参见 什么是GPU容器共享技术cGPU。前提条件 已创建ACK Pro版集群,且集群的Kubernetes版本≥1.18.8。关于Kubernetes的升级操作,请参见 升级ACK集群...

数据监控

通过数据监控,您可以查询指定时间内的带宽用量、全部付费的每日实例数量峰值和边缘算力资源用量(含边缘虚核、边缘内存、边缘存储),帮助您更好地评估边缘节点实例的运行状况。操作步骤 登录 ENS控制台。在左侧导航栏,单击 数据与监控>...

GetJobSanityCheckResult-获取任务某次算力健康检测...

获取DLC任务某次算力健康检测结果。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。请求语法 GET/api/v1/jobs/{...

ListJobSanityCheckResults-获取任务所有算力健康检测...

获取某个DLC任务所有算力健康检测的检测结果。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。请求语法 GET/api/v...

通过Docker安装并使用cGPU服务

cgpu-smi的监控展示信息如下所示:cGPU服务算力调度示例 cGPU服务加载cgpu_km的模块时,会按照容器最大数量(max_inst)为每张显卡设置时间片(X ms),用于为容器分配GPU算力,本示例中以Slice 1、Slice 2.Slice N表示。使用不同调度策略...

API详情

前言 专属服务为AI开发者提供深度学习模型的独立部署,开发者通过专属服务可以:使用独立的计算资源:公共服务会对每个用户进行调用量的限制,而专属服务可以按需部署计算资源,系统自动根据使用的 算力单元 数量进行保护性限流(QPS或TPM...

详细介绍

模型专属服务使用的算力单元必须是模型 基础算力单元 的整数倍,例如 qwen-turbo 模型的基础算力单元为 2,使用了 qwen-turbo 模型的专属服务的算力单元必须是 2 的倍数。模型列表 以下为专属服务支持的预置模型列表:模型名称 基础算力...

修改弹性供应组

由于抢占式实例存在回收机制,您可以通过指定使用按量实例提供的算力来保证满足最低算力需求。说明 如果您调用API CreateAutoProvisioningGroup 创建弹性供应组,目标容量单位支持实例个数、vCPU个数和内存大小。容量相关设置 支持修改以下...

查看集群日报与分析

计算引擎分析 该区域为您展示以下图表信息:计算引擎评分趋势图 计算引擎任务数量趋势图 计算引擎内存算力时饼图、趋势图 计算引擎算力CPU时饼图、趋势图 计算队列信息 该区域为您展示计算队列算力内存时Top 20的图表信息。计算任务信息 ...

按量付费

其计费公式如下:费用=单位时间适配的算力(CRU/小时)x 算力使用时间(小时)x 单价(元/CRU)说明 使用的算力资源,与您单位时间使用的算力以及使用时间成正比。示例:假设某客户应用适配所需算力为0.339CRU/小时,使用了60分钟,则此...

资源规格推荐

资源规格推荐可以根据您的特定业务场景,为您推荐最合适的计算资源规格以及满足您算力需求的资源规模。本文介绍如何根据物理机规格推荐ECS资源和根据总算力推荐ECS资源。根据物理机规格推荐ECS资源 IDC上云可以帮助您在将线下IDC服务器搬迁...

调度策略

资源配额代表了一组算力资源。在配置资源配额时,您可以根据调度策略的实现原理选择合适的调度策略,来提高出队效率,从而提高算力资源的利用率。本文为您介绍支持选择的调度策略和实现原理。背景信息 当多个任务或实例同时请求算力资源时...

异构计算集群概述

背景信息 随着5G、人工智能、HPC(High Performance Computing)、边缘计算等业务的兴起,人们对算力的性能要求达到了一个新的高度,以CPU为代表的通用计算越来越不能满足这些业务的算力需求。因此,人们逐渐将注意力转移到以领域专有架构...

API概览

ListJobSanityCheckResults 获取任务所有算力健康检测结果 获取某个DLC任务所有算力健康检测的检测结果。GetPodLogs 获取任务中某个节点的日志 获取(或者下载)任务某个节点的日志,日志来源于系统和用户脚本的stdout和stderr。...

应用场景

超大规模GPU算力系统,全对等网络架构,全资源池化,可以搭配PAI(机器学习平台)使用,支持多种训练框架(Pytorch、TensorFlow、Caffe、Keras、Xgboost、Mxnet等),可以满足多种规模的AI训练和推理业务。AI基础设施。平滑扩容。满足不同...

任务型实例概述

弹性算力 任务型实例使用的vCPU与宿主机节点的物理CPU并不是严格绑定的,实例进程在运行过程中会被随机调度到任何空闲的vCPU超线程上,不同类型实例的vCPU会分时共享物理CPU资源,在宿主机节点低负载时,任务型实例可以获得较好的算力性能...

计费概述

无影云Flow 会话时长包是支撑云上内容或服务运行的基础算力服务,会话时长包规格的不同体现为底层算力及配置的不同。您可以根据最终用户所需要使用的场景决定您需要购买的 无影云Flow 会话时长包规格,以保证用户出色的访问体验。表 1.规格...

PAI灵骏智服务概述

产品架构 PAI灵骏 是软硬件一体化设计的算力集群服务,硬件涵盖了服务器、网络、存储以及集群的整体交付管理等,软件包括算力资源管控运维、AI加速套件、云原生任务管理,以及完善的AI开发作业平台,支持Pytorch、TensorFlow等常见AI框架。...

使用闲时资源

在大规模的集群算力和复杂的组织结构下,资源利用率成为算力型产品的必然目标。为了解决上述问题,DLC提供了 闲时资源 能力。您可以通过该功能提交闲时计算任务,在不影响正常业务的前提下,提升整体算力资源利用率。实现原理如下:闲时...

集成开发

场景介绍 传统硬件和软件等“端”厂商受客户终端算力、芯片、操作系统等限制,无法满足用户多元化业务需求,需要开发新的解决方案来提升竞争力。无影可被“端厂商”集成,提升端侧算力和跨平台应用能力,全面提升客户产品能力,帮助客户...

产品优势

服务 位置与覆盖 提供能力 适用场景 边缘节点服务(Edge Node Service,ENS)各城市及运营商,全网覆盖 边缘分布式算力资源、低延时网络覆盖 全网广覆盖、流量本地化 内容分发网络(Content Delivery Network,CDN)各城市及运营商,全网...

HTTPDNS:网络切换后会自动刷新域名解析结果?

问题 1:网络切换后会自动刷新域名解析结果?网络实时切换后,比如从 4G 切换到 WIFI 下,想要让 SDK 自动对域名进行重新解析,...粒度是:WiFi,蜂窝,无网 这三个状态间的切换算网络切换。而 4G 与 3G 切换不算,SIM 卡切换也不会单独处理。

网络优化

单 ECS 的网络性能代表了用户的算力在云上所能获得的最大的内网和互联网的访问能力,当前阿里云 ECS 单实例提供的网络性能给用户提供丰富的优化选项。负载均衡性能优化 在网络密集型应用场景中,负载均衡 通常作为集群流程的入口,通过将...

入门概述

创建实例:根据业务需求,您可以在控制台创建边缘实例,明确边缘算力配置、分布,ENS智能选择节点进行批量下发算力。您也可以根据需要随实例创建网络和存储。上线运营:业务测试通过后,正式上线运营。您可以通过ENS控制台管理边缘实例、...

监控与报警

监控指标及说明 监控指标主要包括CPU、内存、磁盘、网络、RDMA、CPFS,以及GPU相关指标,如显存使用率、算力使用率、SM设备使用率、PCIe及NVLink接收/发送数据量等。当前维度主要支持:作业(任务)维度、Pod(Worker)维度、GPU单卡维度,...

功能特性

场景化的产品技术方案 分布式云全网统一管理:基于先进的分布式系统架构,一键创建跨地域、跨运营商的边缘节点算力资源,智能选点、秒级分发,用户可以自助化实现边缘算力的批量操作和一键扩缩容。算网融合,多点协同:多节点算力分钟级...

功能特性

灵骏满足AI、HPC等计算密集场景需要的高性能算力,可实现高性能、大规模的池化算力,满足自动驾驶、科研、金融、生物制药等多行业的异构算力需求。本文为您介绍灵骏的功能特性。高速RDMA网络架构 阿里巴巴2016年开始投入专项研究RDMA...

资源规划

可预见的业务演进计划可以帮助我们做资源规划,预留资源,并反映到成本预估里面,客户侧的业务演进涉及到:新业务云上部署,需要为新业务和系统做资源规划 存量业务增长需要新的算力 现有IDC系统迁云部署 混合云场景下云网络改造涉及的新增...

发起恢复

最大算力配置 Serverless 实例根据使用量,算力自动变化范围的最大值。访问 VPC 选择 ECS 所在网络的专有网络 ID。如果没有合适的 VPC,请根据页面提示创建一个 VPC,详情参见 什么是专有网络。主可用区 选择目标实例的主可用区。访问 ...

什么是边缘节点服务ENS

边缘节点服务ENS(Edge Node Service)基于运营商边缘节点和网络构建,一站式提供靠近终端用户的、全域覆盖的、弹性分布式算力资源,通过终端数据就近计算和处理,优化响应时延、中心负荷和整体成本。帮助用户业务下沉至运营商侧边缘,有效...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
负载均衡 VPN网关 共享流量包 高速通道 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用