2025-10-28 ai infra 知识地图索引 AI Infra 相关总结文章的索引。 0. 工具、通用工具网页收藏 1. 模型2. 训练推理ultrascale-playbook 阅读笔记(1) —— 基础概念,单卡训练 3. 框架技术4. 数据5. 网络5.1 RDMARDMA 使用小总结 5.2 参数面nccl 版本更新跟踪 NCCL-GIN 特性介绍 6. 存储7. 部署7.1 虚拟化论文阅读(SOSP25)LithOS:An Operating Systemfor Efficient Machine Learning on GPUs 论文阅读(NSDI23):Transparent GPU Sharing in Container Clouds for Deep Learning Workloads 8. 算子、驱动8.1 NVIDIAcuda unified memory 简介 GPU 编程简介及优化技巧 GPU Performance Background User's Guide 笔记 9. 硬件GPU 规格收集 Newer ultrascale-playbook 阅读笔记(1) —— 基础概念,单卡训练 Older 论文阅读(SOSP25)LithOS:An Operating Systemfor Efficient Machine Learning on GPUs