服务器 GPU 配备太多的显存会导致 Linux 系统休眠出现问题

  大模型时代,越来越多的数据中心安装了专用 GPU 加速器,而这些加速器配备了数百 GB 容量的显存(VRAM)。在特定的情况下,如果服务器系统内存容量太少,休眠功能可能会出现问题,从休眠中恢复可能需要多达 1 个小时。AMD 工程师 Samuel Zhang 递交了补丁修复了该问题。

  他解释说,如果一台 Linux 服务器有 2 TB 系统内存,配了 8 个 AMD Instinct 加速器,每个加速器显存 192GB 共 1,536GB。休眠时所有 VRAM 显存都迁移到 GTT 或 shmem。在这两种情况下,它都在系统内存中,内核会尝试将复制页到休眠镜像。在最糟糕的情况下,这会导致系统内存中有 2 个 VRAM 副本,1,536GB * 2 = 3TB > 2 TB,系统内存不够用了。