论文阅读(SOSP25)LithOS:An Operating Systemfor Efficient Machine Learning on GPUs

基本信息

论文地址:https://dl.acm.org/doi/pdf/10.1145/3731569.3764818

- 作者:

- Patrick H. Coppock, Brian Zhang, Eliot H. Solomon, Vasilis Kypriotis, Leon Yang†, Bikash Sharma†,

Dan Schatzberg†, Todd C. Mowry, and Dimitrios Skarlatos
- Carnegie Mellon University, †Meta

- 简介:针对 GPU 在生产服务中利用率低,能耗高,隔离性差的问题,提出面向 GPU 场景的操作系统 lithOS。
- 关键技术:

- a novel TPC Scheduler 支持任务空分复用
- a transparent kernel atomizer 减少头阻塞,允许在执行过程中动态分配资源
- a lightweight hardware right-sizing mechanism 动态确定每个原子所需的最小 TPC 资源
- a transparent power management mechanism 电源管理机制,降功耗

- 效果

- 推理任务:相比 MPS 将尾时延降低 13 倍,相比 SOTA 将尾时延降低 4.7 倍,有效吞吐提升 1.3 倍
- 训练推理混布场景:相比 MPS 将尾时延降低 4.7 倍,相比 SOTA 将尾时延降低 1.18 倍,有效吞吐提升 1.35 倍
- 在性能损失不超过 4% 的情况下,GPU 资源节省 25%。
- 在性能损失不超过 7% 的情况下,GPU 能耗节省 25%。

Read More

论文阅读(NSDI23):Transparent GPU Sharing in Container Clouds for Deep Learning Workloads

基本信息:

Transparent GPU Sharing in Container Clouds for Deep Learning Workloads

代码:TGS

  • **NSDI 23 **

  • 作者:

    • Bingyang Wu and Zili Zhang, Peking University;
    • Zhihao Bai, Johns Hopkins University;
    • Xuanzhe Liu and Xin Jin, Peking University
  • 简介:针对容器云场景 DL workload GPU 利用率低的问题,提出了 TGS(Transparent GPU Sharing),实现了高 GPU 利用率以及性能隔离。

关键技术:

  • adaptive rate control
  • transparent unified memory

效果:

  • 对于现有生产任务吞吐影响低。
  • 对于投机任务吞吐可以和 AntMan 媲美。
  • 吞吐是 MPS 的 15 倍。

Read More

cuda unified memory 简介

Unified memory(UM) 是在 cuda 6.0 被引入的统一 CPU、GPU 内存空间管理的技术,使得同一内存地址能够同时被 Host 和 Device 认出,且能够由 cuda 来自动进行内存迁移管理。

基于 UM 可以简化 CPU-GPU 之间 cuda kernel 编程,同时也能非常方便地进行显存超分。但功能上是能轻松实现,后续的性能优化则是需要好好考虑的。

Read More

访问量: 访客数: