2025-12-29

NCCL-GIN 特性介绍

GPU-Initiated Networking for NCCL

NCCL 2.28 版本支持了在 Device 侧直接发起通信的 KI-GDA 能力，性能和通过 NVSHMEM 实现的基本一致。

本文是对其技术报告的笔记总结。

2025-11-16

ultrascale-playbook 阅读笔记(1) —— 基础概念，单卡训练

https://huggingface.co/spaces/Ki-Seki/ultrascale-playbook-zh-cn

介绍 LLM 分布式训练中所使用的技术

2025-10-28

ai infra 知识地图索引

AI Infra 相关总结文章的索引。

2025-10-22

论文阅读（SOSP25）LithOS:An Operating Systemfor Efficient Machine Learning on GPUs

基本信息

论文地址：https://dl.acm.org/doi/pdf/10.1145/3731569.3764818

- 作者：

- Patrick H. Coppock, Brian Zhang, Eliot H. Solomon, Vasilis Kypriotis, Leon Yang†, Bikash Sharma†,

Dan Schatzberg†, Todd C. Mowry, and Dimitrios Skarlatos
- Carnegie Mellon University， †Meta

- 简介：针对 GPU 在生产服务中利用率低，能耗高，隔离性差的问题，提出面向 GPU 场景的操作系统 lithOS。
- 关键技术：

- a novel TPC Scheduler 支持任务空分复用
- a transparent kernel atomizer 减少头阻塞，允许在执行过程中动态分配资源
- a lightweight hardware right-sizing mechanism 动态确定每个原子所需的最小 TPC 资源
- a transparent power management mechanism 电源管理机制，降功耗

- 效果

- 推理任务：相比 MPS 将尾时延降低 13 倍，相比 SOTA 将尾时延降低 4.7 倍，有效吞吐提升 1.3 倍
- 训练推理混布场景：相比 MPS 将尾时延降低 4.7 倍，相比 SOTA 将尾时延降低 1.18 倍，有效吞吐提升 1.35 倍
- 在性能损失不超过 4% 的情况下，GPU 资源节省 25%。
- 在性能损失不超过 7% 的情况下，GPU 能耗节省 25%。

2025-10-21

论文阅读（NSDI23）：Transparent GPU Sharing in Container Clouds for Deep Learning Workloads

基本信息：

Transparent GPU Sharing in Container Clouds for Deep Learning Workloads

代码：TGS

**NSDI 23 **
作者：
- Bingyang Wu and Zili Zhang, Peking University;
- Zhihao Bai, Johns Hopkins University;
- Xuanzhe Liu and Xin Jin, Peking University
简介：针对容器云场景 DL workload GPU 利用率低的问题，提出了 TGS（Transparent GPU Sharing），实现了高 GPU 利用率以及性能隔离。

关键技术：