GPU Performance Background User's Guide 笔记

简介

GPU Performance Background User’s Guide 是英伟达官方写的性能优化背景知识指南。主要介绍了以下几方面内容：

GPU 架构简化视图

每个 SM 每个时钟的乘加运算

如何计算计算操作的吞吐率 FLOPS：SM 核数量 * SM 核主频 * 表格中某种类型操作每个时钟周期的乘加运算数量 * 2（乘+加）

example： A100 TF32 FLOPS = 1.41 GHz * 108 SM * 512 * 2 ≈ 156 TFLOPS

图中 SM 核分为 CUDA Cores 和 Tensor Cores，Tensor cores 可以用来对小矩阵块进行操作。非矩阵操作则还是通过 CUDA Cores 来执行

因此 GPU 会将计算任务划分成多个 thread-block，每个 thread-block 交给不同 SM 核并发执行。每组并发执行的 thread block 被称为 “wave”。

可能会存在尾部效应，即最后一组任务用不满 SM 核。所以线程块数量最好是 SM 核的数倍，以满足足够的并行计算利用率。

给定一个简化的计算场景：一个函数从内存读取输入，执行计算，将输出写入内存。

计算耗时：T_math = ops / BW_math

内存IO耗时：T_mem = bytes / BW_mem

Compute bound 场景（反之则为 memory bound）:

T_math > T_mem

ops / BW_math > bytes / BW_mem

ops / bytes > BW_math / BW_mem

ops / bytes 通常被称为 Arithmetic Intensity，
右侧则是规格参数之比

Deeplearning 常见算子性能瓶颈

瓶颈相关关键词：计算并行性、compute bound、memory bound