GPU-Initiated Networking for NCCL
NCCL 2.28 版本支持了在 Device 侧直接发起通信的 KI-GDA 能力,性能和通过 NVSHMEM 实现的基本一致。
本文是对其技术报告的笔记总结。
GPU-Initiated Networking for NCCL
NCCL 2.28 版本支持了在 Device 侧直接发起通信的 KI-GDA 能力,性能和通过 NVSHMEM 实现的基本一致。
本文是对其技术报告的笔记总结。
AI Infra 相关总结文章的索引。
论文地址:https://dl.acm.org/doi/pdf/10.1145/3731569.3764818
- 作者:
- Patrick H. Coppock, Brian Zhang, Eliot H. Solomon, Vasilis Kypriotis, Leon Yang†, Bikash Sharma†,
Dan Schatzberg†, Todd C. Mowry, and Dimitrios Skarlatos
- Carnegie Mellon University, †Meta
- 简介:针对 GPU 在生产服务中利用率低,能耗高,隔离性差的问题,提出面向 GPU 场景的操作系统 lithOS。
- 关键技术:
- a novel TPC Scheduler 支持任务空分复用
- a transparent kernel atomizer 减少头阻塞,允许在执行过程中动态分配资源
- a lightweight hardware right-sizing mechanism 动态确定每个原子所需的最小 TPC 资源
- a transparent power management mechanism 电源管理机制,降功耗
- 效果
- 推理任务:相比 MPS 将尾时延降低 13 倍,相比 SOTA 将尾时延降低 4.7 倍,有效吞吐提升 1.3 倍
- 训练推理混布场景:相比 MPS 将尾时延降低 4.7 倍,相比 SOTA 将尾时延降低 1.18 倍,有效吞吐提升 1.35 倍
- 在性能损失不超过 4% 的情况下,GPU 资源节省 25%。
- 在性能损失不超过 7% 的情况下,GPU 能耗节省 25%。
Transparent GPU Sharing in Container Clouds for Deep Learning Workloads
代码:TGS
**NSDI 23 **
作者:
简介:针对容器云场景 DL workload GPU 利用率低的问题,提出了 TGS(Transparent GPU Sharing),实现了高 GPU 利用率以及性能隔离。
关键技术:
效果:
Unified memory(UM) 是在 cuda 6.0 被引入的统一 CPU、GPU 内存空间管理的技术,使得同一内存地址能够同时被 Host 和 Device 认出,且能够由 cuda 来自动进行内存迁移管理。
基于 UM 可以简化 CPU-GPU 之间 cuda kernel 编程,同时也能非常方便地进行显存超分。但功能上是能轻松实现,后续的性能优化则是需要好好考虑的。
GPU Performance Background User’s Guide 是英伟达官方写的性能优化背景知识指南。主要介绍了以下几方面内容: