ai infra 知识地图索引

AI Infra 相关总结文章的索引。

0. 工具、通用

工具网页收藏

1. 模型

2. 训练推理

ultrascale-playbook 阅读笔记(1) —— 基础概念,单卡训练

3. 框架技术

4. 数据

5. 网络

5.1 RDMA

RDMA 使用小总结

5.2 参数面

nccl 版本更新跟踪
NCCL-GIN 特性介绍

6. 存储

7. 部署

7.1 虚拟化

论文阅读(SOSP25)LithOS:An Operating Systemfor Efficient Machine Learning on GPUs
论文阅读(NSDI23):Transparent GPU Sharing in Container Clouds for Deep Learning Workloads

8. 算子、驱动

8.1 NVIDIA

cuda unified memory 简介
GPU 编程简介及优化技巧
GPU Performance Background User's Guide 笔记

9. 硬件

GPU 规格收集
访问量: 访客数: