本文为您介绍智能计算灵骏的常见问题。
如何创建、删除集群下的节点分组?
您有两种方式为灵骏集群创建分组。
创建集群时,为集群创建分组。更多信息,请参见集群和分组配置。
创建集群完成后,为已有的集群创建分组。
在左侧导航栏,选择资源与节点>集群管理。
单击相应的集群ID/名称。
单击节点分组页签。
单击新建分组。输入节点组的分组名称、默认机型等信息。
(可选)创建完集群分组后,您可以编辑相应集群分组的名称或删除集群分组。
删除集群下的节点分组。
在左侧导航栏,选择资源与节点>集群管理。
单击相应的集群ID/名称。
单击节点分组页签。
在相应的节点分组后的操作列单击删除。
在对话框中单击确定。
删除集群时,为什么提示需先删除所有分组下的节点?
您需要先对集群进行缩容,保证集群下没有节点,才能删除集群,具体操作请参见删除集群。
为什么深度学习和神经网络需要GPU?
GPU与CPU的对比如下表所示。
对比项 | GPU | CPU |
算术运算单元(ALU) | 大量擅长处理大规模并发计算的算术运算单元(ALU)。 | 拥有强大的算术运算单元(ALU),但数量较少。 |
逻辑控制单元 | 相对简单的逻辑控制单元。 | 复杂的逻辑控制单元。 |
缓存 | 缓存较低且用于服务线程,不用于保存访问的数据。 | 拥有大量缓存结构,能够将数据保存至缓存,从而提高访问速度、降低时延。 |
响应方式 | 需要将全部任务整合后,再进行批处理。 | 实时响应,对单个任务的响应速度较快。 |
适用场景 | 适用于计算密集、相似度高、多线程并行的高吞吐量运算场景。 | 适用于对响应速度有要求,逻辑复杂的串行运算场景。 |
最适合GPU的计算类型是可以并行完成的计算,您可以使用并行编程方法和GPU加速计算。而神经网络是高度并行的,非常适合用GPU进行计算。最典型的例子比如卷积,每个卷积计算都独立于其他卷积计算,这意味着任何计算都不依赖于其他计算的结果。您使用神经网络进行的许多计算都可以很容易地分解成更小的计算,各个小计算不会相互依赖。
智能计算灵骏与普通GPU托管服务有什么不同?
智能计算灵骏集群采用专为大规模AI计算场景所设计的系统架构和多层性能优化技术,能充分利用整体的计算、通信和内存能力。在并行度极高的大规模计算场景,比如自然语言处理、自动驾驶模型训练、推荐引擎等,相比普通GPU托管服务可以减少训练的时间和成本,建立更大、更复杂的模型。
开通集群后,是否需要安装GPU驱动?
灵骏计算节点的操作系统镜像中已包含GPU驱动,您可以使用nvidia-smi确认GPU驱动已正确安装并查询显卡状态。
如何查询GPU显卡的详细信息?
不同操作系统的灵骏节点实例,查看GPU显卡信息的操作有所区别,具体说明如下:
如果您的灵骏节点安装了Linux操作系统,您可以执行命令nvidia-smi,查询GPU显卡的详细信息。
如果您需要了解GPU显卡的空闲率、使用率、温度以及功率等信息,可以前往数据大盘查看。具体操作,请参见数据大盘。
如何使用eGPU套件?
灵骏节点默认安装eGPU软件包的试用版,试用期为3个月。如您希望使用更长时间,请提交工单。目前eGPU的长期授权仅对企业认证用户开放。