1. 通过 nvidia-smi 获取核心频率
在CentOS中,执行以下命令来查看GPU的频率信息:
nvidia-smi -q -d CLOCK
输出的结果可能类似于以下内容:
ClocksGraphics : 1500 MHzSM : 1500 MHzMemory : 5005 MHzVideo : 1100 MHz
在这个例子中,SM (Streaming Multiprocessor) 的频率是1500 MHz,这就是我们用来计算TFlops的核心频率。
2. 查找CUDA核心数量
CUDA核心数量通常不会直接在nvidia-smi中显示。要知道具体的CUDA核心数量,可以查阅NVIDIA官网或查找你的GPU规格。例如,以下是常见几款GPU的CUDA核心数量:
NVIDIA Tesla V100: 5120 CUDA核心
NVIDIA Tesla P100: 3584 CUDA核心
NVIDIA GeForce RTX 3090: 10496 CUDA核心
NVIDIA GeForce GTX 1080: 2560 CUDA核心
也可以通过以下命令获取GPU的型号,然后在网上搜索该型号的CUDA核心数量:
nvidia-smi
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 465.19.01 Driver Version: 465.19.01 CUDA Version: 11.3 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2... On | 00000000:00:1E.0 Off | 0 |
| N/A 32C P0 43W / 300W | 0MiB / 16160MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
在这里,Tesla V100是GPU的名称,根据NVIDIA的官网,Tesla V100的CUDA核心数是5120。
3. 计算TFlops
假设有一张NVIDIA Tesla V100 GPU,CUDA核心数为5120,核心频率为1500MHz。使用以下公式来计算TFlops:
TFlops = (CUDA 核心数 × 核心频率 × 2) / 10^12
代入数据:
TFlops = (5120 × 1500 × 2) / 10^12 = 15.36 TFlops
因此,Tesla V100的理论峰值性能是15.36 TFlops。