跳转至

GPU 监控指标

本页列出一些常用的 GPU 监控指标。

集群维度

指标名称 描述
GPU 卡数 集群下所有的 GPU 卡数量
GPU 平均使用率 集群下所有 GPU 卡的平均算力使用率
GPU 平均显存使用率 集群下所有 GPU 卡的平均显存使用率
GPU 卡功率 集群下所有 GPU 卡的功率
GPU 卡温度 集群下所有 GPU 卡的温度
GPU 算力使用率细节 24 小时内,集群下所有 GPU 卡的使用率细节(包含 max、avg、current)
GPU 显存使用量细节 24 小时内,集群下所有 GPU 卡的显存使用量细节(包含 min、max、avg、current)
GPU 显存带宽使用率 表示内存带宽利用率。以 Nvidia GPU V100 为例,其最大内存带宽为 900 GB/sec,如果当前的内存带宽为 450 GB/sec,则内存带宽利用率为 50%

节点维度

指标名称 描述
GPU 模式 节点上 GPU 卡的使用模式,包含整卡模式、MIG 模式、vGPU 模式
GPU 物理卡数 节点上所有的 GPU 卡数量
GPU 虚拟卡数 节点上已经被创建出来的 vGPU 设备数量
GPU MIG 实例数 节点上已经被创建出来的 MIG 实例数
GPU 显存分配率 节点上所有 GPU 卡的显存分配率
GPU 算力平均使用率 节点上所有 GPU 卡的算力平均使用率
GPU 显存平均使用率 节点上所有 GPU 卡的平均显存使用率
GPU 驱动版本 节点上 GPU 卡驱动的版本信息
GPU 算力使用率细节 24 小时内,节点上每张 GPU 卡的算力使用率细节(包含 max、avg、current)
GPU 显存使用量 24 小时内,节点上每张 GPU 卡的显存使用量细节(包含 min、max、avg、current)

Pod 维度

分类 指标名称 描述
应用概览 GPU 卡 - 算力 & 显存 Pod GPU 算力使用率 当前 Pod 所使用到的 GPU 卡的算力使用率
Pod GPU 显存使用率 当前 Pod 所使用到的 GPU 卡的显存使用率
Pod 显存使用量 当前 Pod 所使用到的 GPU 卡的显存使用量
显存分配量 当前 Pod 所使用到的 GPU 卡的显存分配量
Pod GPU 显存复制使用率 当前 Pod 所使用到的 GPU 卡的显存显存复制比率
GPU 卡 - 引擎概览 GPU 图形引擎活动百分比 表示在一个监控周期内,Graphics 或 Compute 引擎处于 Active 的时间占总的时间的比例
GPU 内存带宽利用率 表示内存带宽利用率(Memory BW Utilization)将数据发送到设备内存或从设备内存接收数据的周期分数。该值表示时间间隔内的平均值,而不是瞬时值。较高的值表示设备内存的利用率较高。
该值为 1(100%)表示在整个时间间隔内的每个周期执行一条 DRAM 指令(实际上,峰值约为 0.8 (80%) 是可实现的最大值)。
假设该值为 0.2(20%),表示 20% 的周期在时间间隔内读取或写入设备内存。
Tensor 核心引擎使用率 表示在一个监控周期内,Tensor Core 管道(Pipe)处于 Active 时间占总时间的比例
FP16 引擎使用率 表示在一个监控周期内,FP16 管道处于 Active 的时间占总的时间的比例
FP32 引擎使用率 表示在一个监控周期内,FP32 管道处于 Active 的时间占总的时间的比例
FP64 引擎使用率 表示在一个监控周期内,FP64 管道处于 Active 的时间占总的时间的比例
GPU 解码使用率 GPU 卡解码引擎比率
GPU 编码使用率 GPU 卡编码引擎比率
GPU 卡 - 温度 & 功耗 GPU 卡温度 集群下所有 GPU 卡的温度
GPU 卡功率 集群下所有 GPU 卡的功率
GPU 卡 - 总耗能 GPU 卡总共消耗的能量
GPU 卡 - Clock GPU 卡内存频率 内存频率
GPU 卡应用SM 时钟频率 应用的 SM 时钟频率
GPU 卡应用内存频率 应用内存频率
GPU 卡视频引擎频率 视频引擎频率
GPU 卡降频原因 降频原因
GPU 卡 - 其他细节 PCIe 传输速率 节点 GPU 卡通过 PCIe 总线传输的数据速率
PCIe 接收速率 节点 GPU 卡通过 PCIe 总线接收的数据速率

评论