AI Infra 相关总结文章的索引。
论文阅读(SOSP25)LithOS:An Operating Systemfor Efficient Machine Learning on GPUs
基本信息
论文地址:https://dl.acm.org/doi/pdf/10.1145/3731569.3764818
- 作者:
- Patrick H. Coppock, Brian Zhang, Eliot H. Solomon, Vasilis Kypriotis, Leon Yang†, Bikash Sharma†,
Dan Schatzberg†, Todd C. Mowry, and Dimitrios Skarlatos
    - Carnegie Mellon University, †Meta
- 简介:针对 GPU 在生产服务中利用率低,能耗高,隔离性差的问题,提出面向 GPU 场景的操作系统 lithOS。
- 关键技术:
- a novel TPC Scheduler 支持任务空分复用
- a transparent kernel atomizer 减少头阻塞,允许在执行过程中动态分配资源
- a lightweight hardware right-sizing mechanism 动态确定每个原子所需的最小 TPC 资源
- a transparent power management mechanism 电源管理机制,降功耗
- 效果
- 推理任务:相比 MPS 将尾时延降低 13 倍,相比 SOTA 将尾时延降低 4.7 倍,有效吞吐提升 1.3 倍
- 训练推理混布场景:相比 MPS 将尾时延降低 4.7 倍,相比 SOTA 将尾时延降低 1.18 倍,有效吞吐提升 1.35 倍
- 在性能损失不超过 4% 的情况下,GPU 资源节省 25%。
- 在性能损失不超过 7% 的情况下,GPU 能耗节省 25%。
        
          
        
      
    论文阅读(NSDI23):Transparent GPU Sharing in Container Clouds for Deep Learning Workloads
基本信息:
Transparent GPU Sharing in Container Clouds for Deep Learning Workloads
代码:TGS
**NSDI 23 **
作者:
- Bingyang Wu and Zili Zhang, Peking University;
 - Zhihao Bai, Johns Hopkins University;
 - Xuanzhe Liu and Xin Jin, Peking University
 
简介:针对容器云场景 DL workload GPU 利用率低的问题,提出了 TGS(Transparent GPU Sharing),实现了高 GPU 利用率以及性能隔离。
关键技术:
- adaptive rate control
 - transparent unified memory
 
效果:
- 对于现有生产任务吞吐影响低。
 - 对于投机任务吞吐可以和 AntMan 媲美。
 - 吞吐是 MPS 的 15 倍。
 
cuda unified memory 简介
Unified memory(UM) 是在 cuda 6.0 被引入的统一 CPU、GPU 内存空间管理的技术,使得同一内存地址能够同时被 Host 和 Device 认出,且能够由 cuda 来自动进行内存迁移管理。
基于 UM 可以简化 CPU-GPU 之间 cuda kernel 编程,同时也能非常方便地进行显存超分。但功能上是能轻松实现,后续的性能优化则是需要好好考虑的。
GPU Performance Background User's Guide 笔记
简介
GPU Performance Background User’s Guide 是英伟达官方写的性能优化背景知识指南。主要介绍了以下几方面内容:
- GPU 基本架构
 - GPU 执行模型
 - 如何评估是 compute bound 还是 memory bound ?
 - 评估深度学习中常见算子
 
RDMA 使用小总结
本文是将原先发于知乎的琐碎文章进行整理总结。
RDMA 性能优化
Tips and trick to optimize your RDMA code 笔记
Tips and trick to optimize your RDMA code 笔记
原文来源于 RDMAmojo,该文章涵盖了优化 RDMA 时延、吞吐、资源占用等几个方面的优化技巧,非常实用,基本都能在日常开发中用得上。