灵骏常见问题

本文为您介绍智能计算灵骏的常见问题。

如何创建、删除集群下的节点分组?

  • 您有两种方式为灵骏集群创建分组。

    • 创建集群时,为集群创建分组。更多信息,请参见集群和分组配置

    • 创建集群完成后,为已有的集群创建分组。

      1. 在左侧导航栏,选择资源与节点>集群管理

      2. 单击相应的集群ID/名称

      3. 单击节点分组页签。

      4. 单击新建分组。输入节点组的分组名称、默认机型等信息。

      5. (可选)创建完集群分组后,您可以编辑相应集群分组的名称或删除集群分组。

  • 删除集群下的节点分组。

    1. 在左侧导航栏,选择资源与节点>集群管理

    2. 单击相应的集群ID/名称

    3. 单击节点分组页签。

    4. 在相应的节点分组后的操作列单击删除

    5. 在对话框中单击确定

删除集群时,为什么提示需先删除所有分组下的节点?

您需要先对集群进行缩容,保证集群下没有节点,才能删除集群,具体操作请参见删除集群

为什么深度学习和神经网络需要GPU?

GPUCPU的对比如下表所示。

对比项

GPU

CPU

算术运算单元(ALU)

大量擅长处理大规模并发计算的算术运算单元(ALU)。

拥有强大的算术运算单元(ALU),但数量较少。

逻辑控制单元

相对简单的逻辑控制单元。

复杂的逻辑控制单元。

缓存

缓存较低且用于服务线程,不用于保存访问的数据。

拥有大量缓存结构,能够将数据保存至缓存,从而提高访问速度、降低时延。

响应方式

需要将全部任务整合后,再进行批处理。

实时响应,对单个任务的响应速度较快。

适用场景

适用于计算密集、相似度高、多线程并行的高吞吐量运算场景。

适用于对响应速度有要求,逻辑复杂的串行运算场景。

最适合GPU的计算类型是可以并行完成的计算,您可以使用并行编程方法和GPU加速计算。而神经网络是高度并行的,非常适合用GPU进行计算。最典型的例子比如卷积,每个卷积计算都独立于其他卷积计算,这意味着任何计算都不依赖于其他计算的结果。您使用神经网络进行的许多计算都可以很容易地分解成更小的计算,各个小计算不会相互依赖。

智能计算灵骏与普通GPU托管服务有什么不同?

智能计算灵骏集群采用专为大规模AI计算场景所设计的系统架构和多层性能优化技术,能充分利用整体的计算、通信和内存能力。在并行度极高的大规模计算场景,比如自然语言处理、自动驾驶模型训练、推荐引擎等,相比普通GPU托管服务可以减少训练的时间和成本,建立更大、更复杂的模型。

开通集群后,是否需要安装GPU驱动?

灵骏计算节点的操作系统镜像中已包含GPU驱动,您可以使用nvidia-smi确认GPU驱动已正确安装并查询显卡状态。

如何查询GPU显卡的详细信息?

不同操作系统的灵骏节点实例,查看GPU显卡信息的操作有所区别,具体说明如下:

  • 如果您的灵骏节点安装了Linux操作系统,您可以执行命令nvidia-smi,查询GPU显卡的详细信息。

  • 如果您需要了解GPU显卡的空闲率、使用率、温度以及功率等信息,可以前往数据大盘查看。具体操作,请参见数据大盘

如何使用eGPU套件?

灵骏节点默认安装eGPU软件包的试用版,试用期为3个月。如您希望使用更长时间,请提交工单。目前eGPU的长期授权仅对企业认证用户开放。