PPU 驱动 Release Note
目前PPU发布的驱动版本并没有全部在云产品上线。请根据您使用的云产品提供的具体驱动版本,查看对应版本的驱动更新信息。比如:ACS目前提供v1.4.1和v1.5.0两个版本的驱动供用户选择。v1.5.0版本驱动相对于v1.4.1版本驱动更新的内容,分别在1.5.0、1.4.4、1.4.3、1.4.2等多个版本章节中分别描述。其他跨版本更新情况以此类推。
v2.0.0
1. 新特性和优化
无
2. 缺陷修复
修复多机训练概率性掉卡问题,需搭配SDK 2.0.0使用 ,具体描述可参考KMD v1.5.5。
3. 已知问题
无
v1.6.1
1. 新特性和优化
无
2. 缺陷修复
修复CentOS 7.9上运行应用程序卡死的问题。
3. 已知问题
CentOS 7.9 + read only buffer + cudaHostRegister组合条件下会发生hang的问题,预计下个版本修复。
v1.6.0
1. 新特性和优化
支持Linux系统Hibernate&Resume电源管理特性。
2. 缺陷修复
修复真武810E在MIG二切分的场景下实例规格不统一的问题。
修复MPS模式从开启切换到关闭状态之后多进程场景(超过5个进程)挂死的问题。
3. 已知问题
无。
v1.5.5
1. 新特性和优化
无
2. 缺陷修复
修复多机训练场景概率性掉卡问题,问题描述如下:
在某些智驾场景的算法模型跨节点训练任务中,PPU 驱动在配置PCIe 访问PPU HBM 的请求优先级设置上有问题,导致LLC会优先响应可缓存的请求,而PCIe的读写操作优先级较低。
Fix 方案:配置寄存器调整了PCIe访问PPU HBM操作的优先级,内核驱动(KMD)与PCCL SDK的联合更新,需搭配PPU SDK 1.6.1-hotfix2 使用。
3. 已知问题
个别真武810E板卡使用MIG/SRIOV虚拟化功能2分片场景下可能存在创建CI/VF出错的问题,预计下个版本修复。
v1.5.4
1. 新特性和优化
无
2. 缺陷修复
修复ACS客户使用PPU驱动1.5.0后PCCL all_reduce会hang住的问题。
3. 已知问题
个别真武810E板卡使用MIG/SRIOV虚拟化功能2分片场景下可能存在创建CI/VF出错的问题,预计下个版本修复。
v1.5.3
1. 新特性和优化
无
2. 缺陷修复
修复 PPU SDK 1.5.1在 CUDA 12.6 环境下显存大量空闲时仍会触发 device memory OOM 的问题。
3. 已知问题
个别真武810E板卡使用MIG/SRIOV虚拟化功能2分片场景下可能存在创建CI/VF出错的问题,预计下个版本修复。
v1.5.2
1. 新特性和优化
无
2. 缺陷修复
[PAI] 真武810E环境rund拉起业务概率性掉卡。
修复CECC过多导致dmesg打印日志过多把磁盘打爆问题。
3. 已知问题
个别真武810E板卡使用MIG/SRIOV虚拟化功能2分片场景下可能存在创建CI/VF出错的问题,预计下个版本修复。
v1.5.1
1. 新特性和优化
无
2. 缺陷修复
修复多机DeepEP场景下随机崩溃的问题;
修复重启之后UECC无法正常修复的问题;
3. 已知问题
个别真武810E板卡使用MIG/SRIOV虚拟化功能2分片场景下可能存在创建CI/VF出错的问题,预计下个版本修复;
v1.5.0
1. 新特性和优化
真武810E上支持MIG和SRIOV虚拟化功能,支持1分片和2分片,不支持ICN互联,不支持热迁移;
支持容器内ppu-smi显示容器内的pid而不是host的pid
2. 缺陷修复
修复cuda host memory无法体现在进程内存和cgroup内存统计的问题;
修复iommu=nopt时dma unmap cpu page报错的问题;
修复GDR注册memory region性能差的问题;
修复icn link6概率性invalid的问题;
修复ppu-smi显示的显存总量不足96GB的问题;
修复onnx推理精度异常的问题;
修复vllm 0.8.3模型推理时cuda graph capture创建过多stream引发的宕机问题;
3. 已知问题
个别真武810E板卡使用MIG/SRIOV虚拟化功能2分片场景下可能存在创建CI/VF出错的问题,预计下个版本修复;
v1.4.4
v1.4.4版本在v1.4.3版本修复了onnx推理精度异常的问题,无新增功能。
1. 新特性和优化
无
2. 缺陷修复
修复onnx推理精度异常的问题;
3. 已知问题
无
v1.4.3
v1.4.3版本在v1.4.2版本基础上修复了若干重要缺陷,无新增功能。
1. 新特性和优化
无
2. 缺陷修复
修复cuda host memory无法体现在进程内存和cgroup内存统计的问题;
3. 已知问题
SRIOV虚拟化single VF模式下多进程运行video应用时有概率发生掉卡问题,预计下个版本修复;
v1.4.2
v1.4.2版本在v1.4.1版本基础上修复了若干重要缺陷,无新增功能。
1. Main Features and Bug Fix Lists
针对大量1bit ecc的场景进一步优化显存占用,最多占用256MB显存,避免业务出现oom。
针对2bit ecc remap fail的场景释放隐藏的修复资源,降低remap fail的几率。
修复remap fail occur flag重新安装驱动被清除问题。
优化设备利用率采集口径使其更接近真实的业务负载数据。
2. Known Issues
SRIOV虚拟化single VF模式下多进程运行video应用时有概率发生掉卡问题,预计下个版本修复;
v1.4.1
v1.4.1版本针对rund环境进一步优化了驱动加载时间,同时修复了若干严重缺陷。
1. Main Features and Bug Fix Lists
优化驱动加载时间,16卡真武810E加载时间从45s优化到22s左右。
优化rund guest驱动加载时间
新增模块加载参数SkipFlr来控制是否跳过驱动加载的FLR操作 (注意只可以在guest内第一次加载驱动时使用)。
驱动申请的大块系统内存从默认清零改为延迟清零。
修复多卡机型使用MPS潮汐模式切换时的业务core dump问题和偶发的宕机问题。
修复驱动在发生大量异常时打印过于频繁造成的cpu hard lockup宕机问题。
修复1bit ecc overflow未正确上报Xid的问题。
调整tx buffer阈值解决跨机尾使用博通线缆p2p性能不达标的问题。