TensorFusion Docs

GPU 管理

管理 GPU 弹性池、GPU 节点和 GPU 设备,实时监控算力资源利用率。

GPU 管理

GPU 管理通过 TensorFusion CRD 实现对 GPU 资源的三级管理:弹性池、节点和设备。所有数据均从 Kubernetes 集群实时回显,不占用业务数据库。

GPU 弹性池

GPU 弹性池(GPUPool)是 TensorFusion 的核心资源抽象,将物理 GPU 设备统一池化管理。每个池显示以下关键指标:

  • 节点状态: Ready/Total 节点数
  • GPU 总量: 池内管理的 GPU 设备总数
  • 运行模式: 池的调度模式配置
  • TFlops 利用率: 已用/总量 TFlops,带可视化进度条
  • VRAM 利用率: 已用/总量显存,带可视化进度条

进度条根据利用率自动变色:低于 50% 为蓝色,50%-80% 为黄色,超过 80% 为红色,帮助管理员快速识别资源瓶颈。

GPU/NPU 节点

GPU 节点(GPUNode)页面以表格形式展示所有 GPU 计算节点:

字段说明
名称节点名称
状态Running/Pending/Failed
GPU 数量节点上的 GPU 总数
管理 GPU被 TensorFusion 管理的 GPU 数
总 TFlops节点算力总量
总 VRAM节点显存总量
可用 TFlops剩余可分配算力
可用 VRAM剩余可分配显存

GPU 设备列表

GPU 设备列表提供单卡级别的资源视图:

  • 设备 UUID: GPU 唯一标识
  • GPU 型号: 如 A100、H100、RTX 4090 等
  • 厂商: NVIDIA 等
  • 运行状态: Running/Pending/Failed
  • 容量与可用资源: TFlops 和 VRAM 的容量与可用量
  • 隔离模式: GPU 的虚拟化隔离配置
  • 所在节点: GPU 物理位置
  • 使用者: 当前占用该 GPU 的工作负载

通过设备列表,管理员可以追踪每块 GPU 的使用情况,定位资源瓶颈和异常设备。

目录