TensorFusion Docs

集群管理

导入和管理 Kubernetes 集群连接,查看系统组件健康状态。

集群管理

集群管理是 Tensor OS 基建管理的入口,提供 Kubernetes 集群的导入、连接管理和系统组件监控能力。

集群导入

Tensor OS 支持通过 kubeconfig 文件导入外部 Kubernetes 集群:

  • 文件上传: 选择本地 kubeconfig 文件(最大 200KB)
  • 粘贴 YAML: 直接在文本框中粘贴 kubeconfig 内容
  • Context 选择: 当 kubeconfig 包含多个 context 时,可选择要导入的目标

导入时系统会自动解析 kubeconfig 中的集群名称、API Server 地址、CA 证书和认证 Token,并进行连接测试验证。

集群锁定

导入多个集群后,可以将某个集群设为「锁定」状态。锁定的集群将作为当前操作的默认目标集群,GPU 管理、存储管理等功能页面会自动使用锁定的集群进行数据查询。

集群列表

每个已导入的集群以卡片形式展示以下信息:

  • 集群名称和显示名称
  • API Server 地址
  • 导入时间
  • 节点状态(Ready/Total 统计)
  • 锁定状态

支持删除不再需要的集群连接。

系统组件

系统组件页面展示当前集群中所有 Deployment 和 StatefulSet 的运行状态:

  • 按命名空间分组 展示组件列表
  • 每个组件显示名称、类型(Deployment/StatefulSet)、副本状态、镜像版本和创建时间
  • 副本状态以颜色区分:绿色表示健康(全部就绪)、黄色表示部分就绪、红色表示不可用

通过系统组件页面,管理员可以快速了解 TensorFusion Operator、CloudNativePG、Redis、RustFS 等所有基线组件的运行状况。

主机管理

主机标签管理和批量运维(Ansible 脚本执行)功能即将推出。

主机管理页面展示集群中所有 Node 的详细信息:

  • 节点名称、状态、角色
  • 操作系统和内核版本
  • CPU、内存等资源的请求量/限制量/可分配量
  • 节点条件状态(MemoryPressure、DiskPressure 等)
  • Pod 列表(按节点筛选)

支持为节点添加标签(Label)和污点(Taint),以及执行节点 Cordon/Uncordon 操作。

目录