PPU 驱动 Release Note

更新时间:
复制为 MD 格式
说明

目前PPU发布的驱动版本并没有全部在云产品上线。请根据您使用的云产品提供的具体驱动版本,查看对应版本的驱动更新信息。比如:ACS目前提供v1.4.1v1.5.0两个版本的驱动供用户选择。v1.5.0版本驱动相对于v1.4.1版本驱动更新的内容,分别在1.5.0、1.4.4、1.4.3、1.4.2等多个版本章节中分别描述。其他跨版本更新情况以此类推。

v2.0.0

1. 新特性和优化

2. 缺陷修复

  • 修复多机训练概率性掉卡问题,需搭配SDK 2.0.0使用 ,具体描述可参考KMD v1.5.5

3. 已知问题

v1.6.1

1. 新特性和优化

2. 缺陷修复

  • 修复CentOS 7.9上运行应用程序卡死的问题。

3. 已知问题

  • CentOS 7.9 + read only buffer + cudaHostRegister组合条件下会发生hang的问题,预计下个版本修复。

v1.6.0

1. 新特性和优化

  • 支持Linux系统Hibernate&Resume电源管理特性。

2. 缺陷修复

  • 修复真武810EMIG二切分的场景下实例规格不统一的问题。

  • 修复MPS模式从开启切换到关闭状态之后多进程场景(超过5个进程)挂死的问题。

3. 已知问题

  • 无。

v1.5.5

1. 新特性和优化

2. 缺陷修复

  • 修复多机训练场景概率性掉卡问题,问题描述如下:

    • 在某些智驾场景的算法模型跨节点训练任务中,PPU 驱动在配置PCIe 访问PPU HBM 的请求优先级设置上有问题,导致LLC会优先响应可缓存的请求,而PCIe的读写操作优先级较低。

    • Fix 方案:配置寄存器调整了PCIe访问PPU HBM操作的优先级,内核驱动(KMD)与PCCL SDK的联合更新,需搭配PPU SDK 1.6.1-hotfix2 使用。

3. 已知问题

  • 个别真武810E板卡使用MIG/SRIOV虚拟化功能2分片场景下可能存在创建CI/VF出错的问题,预计下个版本修复。

v1.5.4

1. 新特性和优化

2. 缺陷修复

  • 修复ACS客户使用PPU驱动1.5.0PCCL all_reducehang住的问题。

3. 已知问题

  • 个别真武810E板卡使用MIG/SRIOV虚拟化功能2分片场景下可能存在创建CI/VF出错的问题,预计下个版本修复。

v1.5.3

1. 新特性和优化

2. 缺陷修复

  • 修复 PPU SDK 1.5.1在 CUDA 12.6 环境下显存大量空闲时仍会触发 device memory OOM 的问题。

3. 已知问题

  • 个别真武810E板卡使用MIG/SRIOV虚拟化功能2分片场景下可能存在创建CI/VF出错的问题,预计下个版本修复。

v1.5.2

1. 新特性和优化

2. 缺陷修复

  • [PAI] 真武810E环境rund拉起业务概率性掉卡。

  • 修复CECC过多导致dmesg打印日志过多把磁盘打爆问题。

3. 已知问题

  • 个别真武810E板卡使用MIG/SRIOV虚拟化功能2分片场景下可能存在创建CI/VF出错的问题,预计下个版本修复。

v1.5.1

1. 新特性和优化

2. 缺陷修复

  • 修复多机DeepEP场景下随机崩溃的问题;

  • 修复重启之后UECC无法正常修复的问题;

3. 已知问题

  • 个别真武810E板卡使用MIG/SRIOV虚拟化功能2分片场景下可能存在创建CI/VF出错的问题,预计下个版本修复;

v1.5.0

1. 新特性和优化

  • 真武810E上支持MIGSRIOV虚拟化功能,支持1分片和2分片,不支持ICN互联,不支持热迁移;

  • 支持容器内ppu-smi显示容器内的pid而不是hostpid

2. 缺陷修复

  • 修复cuda host memory无法体现在进程内存和cgroup内存统计的问题;

  • 修复iommu=noptdma unmap cpu page报错的问题;

  • 修复GDR注册memory region性能差的问题;

  • 修复icn link6概率性invalid的问题;

  • 修复ppu-smi显示的显存总量不足96GB的问题;

  • 修复onnx推理精度异常的问题;

  • 修复vllm 0.8.3模型推理时cuda graph capture创建过多stream引发的宕机问题;

3. 已知问题

  • 个别真武810E板卡使用MIG/SRIOV虚拟化功能2分片场景下可能存在创建CI/VF出错的问题,预计下个版本修复;

v1.4.4

v1.4.4版本在v1.4.3版本修复了onnx推理精度异常的问题,无新增功能。

1. 新特性和优化

2. 缺陷修复

  • 修复onnx推理精度异常的问题;

3. 已知问题

v1.4.3

v1.4.3版本在v1.4.2版本基础上修复了若干重要缺陷,无新增功能。

1. 新特性和优化

2. 缺陷修复

  • 修复cuda host memory无法体现在进程内存和cgroup内存统计的问题;

3. 已知问题

  • SRIOV虚拟化single VF模式下多进程运行video应用时有概率发生掉卡问题,预计下个版本修复;

v1.4.2

v1.4.2版本在v1.4.1版本基础上修复了若干重要缺陷,无新增功能。

1. Main Features and Bug Fix Lists

  • 针对大量1bit ecc的场景进一步优化显存占用,最多占用256MB显存,避免业务出现oom。

  • 针对2bit ecc remap fail的场景释放隐藏的修复资源,降低remap fail的几率。

  • 修复remap fail occur flag重新安装驱动被清除问题。

  • 优化设备利用率采集口径使其更接近真实的业务负载数据。

2. Known Issues

  • SRIOV虚拟化single VF模式下多进程运行video应用时有概率发生掉卡问题,预计下个版本修复;

v1.4.1

v1.4.1版本针对rund环境进一步优化了驱动加载时间,同时修复了若干严重缺陷。

1. Main Features and Bug Fix Lists

  • 优化驱动加载时间,16卡真武810E加载时间从45s优化到22s左右。

  • 优化rund guest驱动加载时间

    • 新增模块加载参数SkipFlr来控制是否跳过驱动加载的FLR操作 (注意只可以在guest内第一次加载驱动时使用)。

    • 驱动申请的大块系统内存从默认清零改为延迟清零。

  • 修复多卡机型使用MPS潮汐模式切换时的业务core dump问题和偶发的宕机问题。

  • 修复驱动在发生大量异常时打印过于频繁造成的cpu hard lockup宕机问题。

  • 修复1bit ecc overflow未正确上报Xid的问题。

  • 调整tx buffer阈值解决跨机尾使用博通线缆p2p性能不达标的问题。