GPU 管理
管理 GPU 弹性池、GPU 节点和 GPU 设备,实时监控算力资源利用率。
GPU 管理
GPU 管理通过 TensorFusion CRD 实现对 GPU 资源的三级管理:弹性池、节点和设备。所有数据均从 Kubernetes 集群实时回显,不占用业务数据库。
GPU 弹性池
GPU 弹性池(GPUPool)是 TensorFusion 的核心资源抽象,将物理 GPU 设备统一池化管理。每个池显示以下关键指标:
- 节点状态: Ready/Total 节点数
- GPU 总量: 池内管理的 GPU 设备总数
- 运行模式: 池的调度模式配置
- TFlops 利用率: 已用/总量 TFlops,带可视化进度条
- VRAM 利用率: 已用/总量显存,带可视化进度条
进度条根据利用率自动变色:低于 50% 为蓝色,50%-80% 为黄色,超过 80% 为红色,帮助管理员快速识别资源瓶颈。
GPU/NPU 节点
GPU 节点(GPUNode)页面以表格形式展示所有 GPU 计算节点:
| 字段 | 说明 |
|---|---|
| 名称 | 节点名称 |
| 状态 | Running/Pending/Failed |
| GPU 数量 | 节点上的 GPU 总数 |
| 管理 GPU | 被 TensorFusion 管理的 GPU 数 |
| 总 TFlops | 节点算力总量 |
| 总 VRAM | 节点显存总量 |
| 可用 TFlops | 剩余可分配算力 |
| 可用 VRAM | 剩余可分配显存 |
GPU 设备列表
GPU 设备列表提供单卡级别的资源视图:
- 设备 UUID: GPU 唯一标识
- GPU 型号: 如 A100、H100、RTX 4090 等
- 厂商: NVIDIA 等
- 运行状态: Running/Pending/Failed
- 容量与可用资源: TFlops 和 VRAM 的容量与可用量
- 隔离模式: GPU 的虚拟化隔离配置
- 所在节点: GPU 物理位置
- 使用者: 当前占用该 GPU 的工作负载
通过设备列表,管理员可以追踪每块 GPU 的使用情况,定位资源瓶颈和异常设备。